梅 準(zhǔn),劉世超,曹巨江,張 佳
(1.陜西科技大學(xué)機(jī)電工程學(xué)院,陜西 西安 710021;2.中航西安飛機(jī)工業(yè)集團(tuán)股份有限公司,陜西 西安 710089;3.西安交通大學(xué)城市學(xué)院,陜西 西安 710018)
隨著我國及世界主要國家人口老齡化程度的逐步加深,老年人的日常生活陪伴與護(hù)理這一社會(huì)問題已經(jīng)得到越來越多的關(guān)注。特別是對(duì)于半失能、語言或聽力受損的老年人,如何完成與護(hù)工或助老機(jī)器人間的交互,成為了影響這類機(jī)器人實(shí)現(xiàn)方式與使用效能的重要因素,視覺技術(shù)、人工智能等相關(guān)技術(shù)的發(fā)展為這一問題的解決提供了途徑。
手勢識(shí)別是通過人手部的姿態(tài)或動(dòng)作識(shí)別來傳輸特征信息以控制設(shè)備或機(jī)器人作為一種輸入方式,實(shí)現(xiàn)人與機(jī)器之間的交互。目前,手勢識(shí)別在手語識(shí)別[1]、虛擬現(xiàn)實(shí)、機(jī)器人控制[2]、交通指揮[3]、醫(yī)療輔助等領(lǐng)域有較多的研究。隨著計(jì)算機(jī)視覺和人工智能的不斷發(fā)展,因基于視覺的手勢識(shí)別具有非接觸、成本低、簡單直觀且自然便捷的特點(diǎn),成為了機(jī)器交互領(lǐng)域的重要解決方式。
基于視覺的手勢識(shí)別主要通過Kinect、立體相機(jī)、RGB-D 等深度攝像機(jī)作為采集設(shè)備對(duì)手部圖像進(jìn)行采集和處理,實(shí)現(xiàn)手勢的識(shí)別。由于手勢的多樣性和現(xiàn)實(shí)環(huán)境背景的復(fù)雜性,采集到的手部圖像容易受光照強(qiáng)度、膚色、服裝、噪聲、遮擋以及背景復(fù)雜環(huán)境的影響。因此手部圖像的分割以及邊緣、紋理等特征的提取是手勢識(shí)別的難點(diǎn)[4],同時(shí)提取過程中也會(huì)難以避免的產(chǎn)生錯(cuò)誤識(shí)別和無法識(shí)別,導(dǎo)致識(shí)別的成功率降低,魯棒性較差。近年來,各國學(xué)者在該領(lǐng)域展開了研究,并取得了顯著的進(jìn)展。為了能在訓(xùn)練集較少的情況下實(shí)現(xiàn)較好的識(shí)別率,文獻(xiàn)[5]采用了分類的方法,提出使用基于離散小波變換和費(fèi)舍爾比率的特征提取對(duì)復(fù)雜環(huán)境的靜態(tài)手勢進(jìn)行識(shí)別。在機(jī)器人動(dòng)態(tài)物料搬運(yùn)中,學(xué)者研究了基于OpenCV 進(jìn)行物料輪廓提取與曲線擬合實(shí)現(xiàn)典型零件特征識(shí)別的方法[6]。為了得到可信度更高的手勢識(shí)別特征點(diǎn),學(xué)者提出了基于特征跟蹤的人機(jī)交互多點(diǎn)手勢識(shí)別方法[7]。在文獻(xiàn)[8]中,為了實(shí)時(shí)迅速的自動(dòng)識(shí)別出籃球比賽視頻中裁判員的手勢,作者提出了一種基于定向梯度直方圖和局部二值式(LBP)特征的圖像分割方法,但該方法采用的邊緣檢測算法提取的邊緣信息較少,影響了識(shí)別的成功率。在文獻(xiàn)[9]中,作者提出了一種低成本可用于穿戴設(shè)備的手勢識(shí)別方法,該方法通過TOF 深度相機(jī)捕捉手掌區(qū)域,并進(jìn)行邊緣切割計(jì)算,同時(shí)可以減少計(jì)算時(shí)間,但該方法采用的相機(jī)成本高,同時(shí)識(shí)別成功率偏低。
為了將手勢姿態(tài)識(shí)別應(yīng)用于助老服務(wù)機(jī)器人的交互場景中,提出了一種基于SURF 特征點(diǎn)匹配算法和YCbCr 膚色模型相結(jié)合的方法對(duì)復(fù)雜背景中的手勢圖像進(jìn)行識(shí)別與分割。首先通過SURF 特征點(diǎn)匹配算法對(duì)復(fù)雜背景中的手進(jìn)行一次粗識(shí)別?;赟URF特征點(diǎn)的匹配可以解決特征提取數(shù)據(jù)量過大的問題,同時(shí)提高了識(shí)別的效率。此外,SURF 特征還具有尺度、方向不變性,光照條件下保持穩(wěn)定的優(yōu)點(diǎn)。膚色模型可以實(shí)現(xiàn)手部區(qū)域的分割,提高了識(shí)別的準(zhǔn)確性。最后對(duì)提出的方法進(jìn)行了實(shí)驗(yàn)的驗(yàn)證,證實(shí)了算法的可行性。
提出的靜態(tài)手勢識(shí)別過程如圖1 所示。主要包括:圖像預(yù)處理、特征提取與分割、形態(tài)學(xué)處理等步驟。其中特征提取與分割是手勢識(shí)別的核心。
圖1 靜態(tài)手勢識(shí)別過程
由于手勢圖像在形成或運(yùn)輸?shù)倪^程中會(huì)受到復(fù)雜環(huán)境的干擾產(chǎn)生噪聲[10],這些噪聲會(huì)導(dǎo)致圖像模糊、圖像失真和圖像特征缺失。為了不影響后續(xù)手勢識(shí)別和手部分割等工作的進(jìn)行,本文采用中值濾波對(duì)手勢圖像進(jìn)行圖像平滑處理,去處圖像中的椒鹽噪聲。中值濾波可定義為:
式中:g(s,t)為原始圖像;f(x,y)為濾波后圖像;Sxy為濾波器模板。
如圖2 所示為手部圖像降噪后的結(jié)果。
圖2 手部圖像降噪結(jié)果
SURF 算法采用了SIFT 算法的思想[11],在特征提取和描述方式上進(jìn)行了改進(jìn),提高了算法的效率和穩(wěn)定。該算法核心在于采用Hessian 檢測圖像尺度不變關(guān)鍵點(diǎn),生成穩(wěn)定的邊緣點(diǎn),提高了算法的魯棒性。SURF 算法的步驟如下:①檢測關(guān)鍵點(diǎn);②構(gòu)建圖像尺度空間;③選取特征主方向;④特征點(diǎn)描述;⑤特征點(diǎn)匹配。
(1)檢測關(guān)鍵點(diǎn)
設(shè)圖像為I(x,y),(x,y)是尺度為σ的圖像中的像素點(diǎn),其Hessian 矩陣為:
其中Lxx為高斯濾波函數(shù)卷積后的二階微分,同理其余三項(xiàng)含義相似??梢缘玫矫總€(gè)像素點(diǎn)Hessian 的判別式為:
其中ω為平均近似代替誤差的權(quán)值,滿足一定閾值條件Det(H)的像素點(diǎn),即為檢測的關(guān)鍵點(diǎn)。
(2)構(gòu)建圖像尺度空間
通過構(gòu)建圖像尺度空間,獲得尺度不變的特征點(diǎn),SURF 算法主要通過改變?yōu)V波器的大小對(duì)圖像進(jìn)行高斯模糊,不改變圖像的尺寸大小,得到多層的尺度空間圖像。最后,使用相同尺寸的濾波器檢測特征點(diǎn)。
(3)選取特征主方向
首先利用閾值進(jìn)行特征點(diǎn)的篩選,獲取特征點(diǎn)的位置,其次統(tǒng)計(jì)6s(s 為尺度因子)鄰域內(nèi)像素水平和垂直方向的Harr 小波特征。最后,使用60°的扇形進(jìn)行旋轉(zhuǎn),然后統(tǒng)計(jì)區(qū)域內(nèi)Harr 小波特征值,將小波特征值大的方向作為特征點(diǎn)主方向。
(4)特征點(diǎn)描述
在得到的特征點(diǎn)主方向后,將周圍20s × 20s 的矩形區(qū)域劃分為16 個(gè)子區(qū)域。分別計(jì)算每個(gè)子區(qū)域內(nèi)像素點(diǎn)在水平方向和豎直方向的Harr 小波特征值之和Σdx和Σdy,然后再分別計(jì)算水平方向和豎直方向的特征絕對(duì)值之和最后把4個(gè)值作為每個(gè)子區(qū)域的特征向量,一共得到64 維特征向量。
(5)檢測關(guān)鍵點(diǎn)
通過計(jì)算圖像對(duì)之間兩個(gè)特征點(diǎn)的歐式距離,在參考圖與待匹配圖中找到與它距離最近的兩個(gè)特征點(diǎn),通過設(shè)定的閾值進(jìn)行判斷,若兩個(gè)點(diǎn)都小于閾值,那么兩個(gè)點(diǎn)可以進(jìn)行特征點(diǎn)匹配,反之則需要剔除。
如圖3 所示為手勢特征點(diǎn)匹配的結(jié)果,圖4 所示為手勢識(shí)別的粗識(shí)別。
圖3 SURF 特征點(diǎn)匹配結(jié)果
圖4 手勢識(shí)別的粗識(shí)別結(jié)果1.3 YCbCr 膚色模型分割
在完成了手勢的粗識(shí)別后,為了提高手勢識(shí)別的準(zhǔn)確性,需要把手部區(qū)域從圖像背景中分割出來,減少復(fù)雜環(huán)境的干擾。膚色在手勢識(shí)別中具有明顯的特征,YCbCr 顏色模型是色度和亮度分割的空間[12],符合人類視覺感知,對(duì)膚色的聚類效果較好,不易受光照等其他因素干擾。因此采用了基于YCbCr 的皮膚顏色模型進(jìn)行手部的分割。
在YCbCr 顏色空間中,Y 表示亮度,Cb 代表藍(lán)色色度,Cr 代表紅色色度,將手部圖像由RGB 色彩空間轉(zhuǎn)換到Y(jié)CbCr 色彩空間的關(guān)系如下:
確定空間轉(zhuǎn)換的橢圓膚色模型,在CbCr 平面上手部膚色可以近似集中在一個(gè)橢圓內(nèi),其函數(shù)模型公式如下:
經(jīng)統(tǒng)計(jì)實(shí)驗(yàn)發(fā)現(xiàn),可以確定的參數(shù)值為:Cx=109.38,Cy= 152.02,a= 25.39,b= 14.03,θ= 2.53。對(duì)于任意的坐標(biāo),若在橢圓內(nèi)或邊緣處,則被認(rèn)為是手部膚色像素點(diǎn),反之將其去除。若某個(gè)像素點(diǎn)的Y、Cb 和Cr,不在設(shè)定的閾值范圍,則不屬于膚色像素點(diǎn),屬于背景點(diǎn)。圖5 是YCbCr 膚色模型分割的手部結(jié)果。
圖5 YCbCr 膚色模型分割結(jié)果
手部膚色模型分割后可以分離出大致的手部輪廓信息,但背景環(huán)境中存在較多的干擾因素,邊緣部分存在不平滑和孔洞等現(xiàn)象。因此需要對(duì)分割后的手部圖像進(jìn)行處理。本文采用組合形態(tài)學(xué)算法對(duì)手部圖像進(jìn)行膨脹處理、孔洞填充和連通域處理,使手勢識(shí)別達(dá)到較好的效果。具體步驟如下:
首先進(jìn)行膨脹處理,將邊界向外部擴(kuò)張,填充手部圖像中的小孔及其缺失凹陷部分,確保手部邊界的平滑。膨脹處理的公式為:
其中A⊕B表示結(jié)構(gòu)元素B對(duì)圖像A的膨脹。
孔洞填充將手部圖像中封閉區(qū)域的孔洞進(jìn)行填充,保證手部區(qū)域圖像的完整性??锥刺畛涞墓綖椋?/p>
其中Xk為待填充區(qū)域分割的區(qū)域塊;X0為由0 組成的陣列,也是邊界的初始位置;B為已知對(duì)稱的結(jié)構(gòu)元;Ac為即A的補(bǔ)集。
連通域處理可以將除手部圖像以外的區(qū)域進(jìn)行過濾,只將連通域面積大的手部保留下來。
如圖6 所示為最終的手勢識(shí)別結(jié)果。
圖6 手勢的最終識(shí)別圖
為了驗(yàn)證提出方法的可行性,在復(fù)雜背景下對(duì)5種不同的手勢動(dòng)作進(jìn)行了識(shí)別。每種特定的手勢動(dòng)作重復(fù)了30 次,從不同的角度和合適的距離對(duì)手勢動(dòng)作圖像進(jìn)行采集。如圖7(a)所示為5 種不同的手勢動(dòng)作,圖7(b)為最終的識(shí)別結(jié)果。
圖7 5 種手勢動(dòng)作和5 種手勢的識(shí)別
5 種不同手勢分別進(jìn)行了30 次的實(shí)驗(yàn)結(jié)果見表1。從表中可以看到,“寫字”手勢的識(shí)別成功率為83%,因?yàn)閮芍皇謺?huì)增加識(shí)別的誤差,需要將兩只手都識(shí)別出來才算識(shí)別成功?!巴埔巫印笔謩莸淖R(shí)別成功率最高,為96.7%,椅子背景較其他手勢復(fù)雜背景而言相對(duì)單一,因此識(shí)別成功率較高。此外,光照條件和目標(biāo)物表面的反光也會(huì)影響手勢識(shí)別的成功率。
表1 5 種不同手勢的識(shí)別結(jié)果
本文提出一種基于SURF 和YCbCr 結(jié)合的靜態(tài)手勢識(shí)別方法。中值濾波算法用來去除手部背景的噪聲干擾;基于SURF 特征點(diǎn)匹配算法對(duì)手部圖像進(jìn)行粗識(shí)別,用于在復(fù)雜背景中找到手部特征信息,減少了算法處理占用的內(nèi)存空間,提高了識(shí)別的準(zhǔn)確率?;赮CbCr 膚色模型的手勢分割算法,可以將手部特征分割出來,實(shí)現(xiàn)了手勢的精確識(shí)別。然后通過組合的形態(tài)學(xué)算法對(duì)分割出來的手部圖像和干擾背景進(jìn)行細(xì)化處理,將復(fù)雜背景中的干擾物去除,只保留手部的重要信息。最后對(duì)5 種不同的手勢進(jìn)行了實(shí)驗(yàn)驗(yàn)證,其中“推椅子”手勢識(shí)別結(jié)果的成功率最高為96.7%,實(shí)驗(yàn)結(jié)果表明所提出的方法具有很好的準(zhǔn)確性和魯棒性。