陳 鑫,劉振國(guó),張 穎
(南京航空航天大學(xué)電子信息工程學(xué)院,江蘇 南京 210016)
隨著模式識(shí)別技術(shù)的發(fā)展[1],出現(xiàn)了語(yǔ)音識(shí)別[2]、漢字識(shí)別、圖像識(shí)別[3]等技術(shù)途徑,輸入設(shè)備不再局限于鼠標(biāo)和鍵盤(pán),多媒體智能的交互模式能夠給用戶提供極高的自由度。在人的身體構(gòu)成中,手部最為靈活?;谌耸值娜藱C(jī)交互符合人類的操作習(xí)慣,人們可以通過(guò)手部動(dòng)作表達(dá)復(fù)雜的命令并將其傳遞給計(jì)算機(jī)實(shí)現(xiàn)人機(jī)交互。因此,人手作為一種“新型”的傳感器,是未來(lái)人機(jī)交互技術(shù)發(fā)展的重要方向之一[4]。
Kinect v2 體感設(shè)備含有高清攝像頭能夠提供1 920 pix×1 080 pix 的彩色圖像。此外,該設(shè)備中還包含了紅外發(fā)射器和紅外接收器,能夠提供512 pix×424 pix 的深度圖像。非常適合作為體感設(shè)備的視頻采集設(shè)備,并應(yīng)用到多種場(chǎng)合中[5-7]。
手部分割是計(jì)算機(jī)視覺(jué)手寫(xiě)輸入系統(tǒng)中非常關(guān)鍵的第一個(gè)步驟,手部分割的效果將極大地影響該系統(tǒng)的識(shí)別效果以及實(shí)時(shí)性能[8]。當(dāng)前情況下,手部分割的難點(diǎn)主要來(lái)源于2 個(gè)方面:
(1)背景環(huán)境的復(fù)雜性:主要包括在不同光照條件(顏色和亮度)下手部膚色會(huì)發(fā)生較大變化,類膚色區(qū)域容易與手部膚色相互混淆,障礙物對(duì)手部的遮擋會(huì)使分割目標(biāo)不明確等;
(2)手部的靈活性:在空間中,手部的運(yùn)動(dòng)是復(fù)雜多變的,這會(huì)導(dǎo)致手部的外形特征出現(xiàn)較大差異。
為了解決上述問(wèn)題,劉亞瑞[9]利用Kinect 體感器獲取手勢(shì)深度圖像,采用變形雅可比—傅里葉矩對(duì)手勢(shì)圖像進(jìn)行特征提取,基于最小歐氏距離分類器進(jìn)行建模、分類,實(shí)現(xiàn)手勢(shì)識(shí)別。
華旭奮[10]融合手勢(shì)的幾何特征和深度信息的同心圓分布直方圖特征;學(xué)習(xí)訓(xùn)練隨機(jī)森林分類器進(jìn)行手勢(shì)識(shí)別。
王兵[11]針對(duì)現(xiàn)有的動(dòng)態(tài)手勢(shì)識(shí)別率低,識(shí)別手勢(shì)少等不足,基于運(yùn)動(dòng)軌跡的運(yùn)動(dòng)方向的變化,提取了該動(dòng)態(tài)手勢(shì)的運(yùn)動(dòng)方向變化角度作為特征,并采用隱馬爾科夫模型訓(xùn)練和識(shí)別各個(gè)手勢(shì)。
張登攀[12]提出一種基于Kinect 骨骼信息與深度圖像的掌心點(diǎn)提取和指尖點(diǎn)檢測(cè)的手勢(shì)識(shí)別方法。對(duì)Kinect 傳感器獲取的人體骨骼信息和深度圖像進(jìn)行分析,對(duì)手勢(shì)區(qū)域進(jìn)行形態(tài)學(xué)處理,結(jié)合凸包和K-曲率算法檢測(cè)不同手勢(shì)中指尖點(diǎn)的個(gè)數(shù)和位置。
基于Kinect 的硬件,提出了一種自適應(yīng)的混合型手部分割方法,將基于深度圖像的閾值分割方法和基于彩色圖像的膚色分割方法結(jié)合起來(lái),首先基于深度圖像將人體信息從背景圖像中分離出來(lái),然后再基于膚色模型分割算法,對(duì)人體圖像進(jìn)行手部分割。該混合型手部分割方法,能夠較好地克服光線以及復(fù)雜背景所帶來(lái)的消極影響,也能夠更好地適應(yīng)復(fù)雜的人體動(dòng)作,達(dá)到更好的分割效果。
如表1 所示,從Kinect 獲取的16 位深度數(shù)據(jù)中,低4 位表示用戶編號(hào),編號(hào)不為0 時(shí)表示此像素點(diǎn)來(lái)自于當(dāng)前編號(hào)的用戶而不是背景環(huán)境。針對(duì)此特點(diǎn),將深度圖像中像素值為0 的部分(Kinect 成像原理里面認(rèn)為不可測(cè)區(qū)域,通常為物體邊緣)和不屬于人體的部分(Player Index 為0)濾除,即可得到人體圖像。
表1 16 位深度數(shù)據(jù)格式
如圖1 所示,對(duì)提取人體信息后的深度圖像進(jìn)行坐標(biāo)系變換,將其映射到彩色圖像中,便可以將人體信息從彩色圖像中分離出來(lái)。圖1(a)為經(jīng)過(guò)人體信息提取的深度圖像,圖1(b)為彩色圖像。
依據(jù)Kinect 深度圖像的特性,圖像中各點(diǎn)像素值,即深度值能夠體現(xiàn)各像素點(diǎn)離設(shè)備的距離,深度值越小表示離設(shè)備越近,深度值越大表示離設(shè)備越遠(yuǎn)。
當(dāng)手伸向前方,手部與身體存在一定距離的時(shí)候,深度主要集中在兩塊區(qū)域,面積較小的表示手部的深度分布,面積較大的表示身體的深度分布。這種情況下,手部和軀體之間存在明顯的分割點(diǎn)??蓪⒋朔指铧c(diǎn)作為閾值,對(duì)深度圖像進(jìn)行分割處理,即可得到手部深度圖。此外,人體離設(shè)備的距離是動(dòng)態(tài)變化的,手部的位置也會(huì)相對(duì)軀體產(chǎn)生變化,因此深度分割的閾值并不是固定不變的。
為了準(zhǔn)確高效地分割出手部深度圖像,將最大類間方差法引入到深度閾值分割處理中,實(shí)現(xiàn)了一種自適應(yīng)閾值的手部分割方法,該方法能夠根據(jù)身體的不同動(dòng)作及人體距離自適應(yīng)地調(diào)整深度分割的閾值,實(shí)現(xiàn)對(duì)人體深度圖像的手部分割。
最大類間方差法按圖像的灰度特性,將圖像分成背景和目標(biāo)2 個(gè)部分。背景和目標(biāo)的類間方差越大,說(shuō)明構(gòu)成圖像的兩部分差別越大,當(dāng)部分目標(biāo)被錯(cuò)分為背景或部分背景被錯(cuò)分為目標(biāo)時(shí),兩部分差別會(huì)變小。因此,類間方差最大時(shí)錯(cuò)分概率最小。
以手部信息作為分割目標(biāo),人體軀干作為背景。假設(shè)深度圖像中包含L個(gè)灰度級(jí),灰度值為i(0≤i≤L-1)的像素點(diǎn)數(shù)為Ni。則人體部分總像素點(diǎn)個(gè)數(shù)如式(1)所示。
設(shè)灰度值為i的像素點(diǎn)的概率如式(2)所示。
設(shè)閾值為t,屬于人手的深度像素點(diǎn)集合為A,屬于軀干的深度像素點(diǎn)集合為B。由于手是伸向前方,所以手部區(qū)域的深度數(shù)據(jù)較小。所以集合A和集合B中像素點(diǎn)的個(gè)數(shù)由式(3)給出。
則對(duì)應(yīng)出現(xiàn)的概率可分別見(jiàn)式(4)。
人手和軀干的灰度均值如式(5)所示。
灰度圖像總均值如式(6)所示。
人手和軀干的類間方差如式(7)所示。
如式(8)所示,類間方差越大,兩類的灰度差別越大,使得類間方差最大的閾值即為最佳閾值。
根據(jù)此閾值分割方法,第一次分割出來(lái)的圖像會(huì)包含部分手臂信息。可以根據(jù)深度信息最小值(即手部最前端的值)m,結(jié)合自適應(yīng)閾值t,再次進(jìn)行閾值分割以得到新的閾值t′。
最終,根據(jù)t′對(duì)圖像進(jìn)行分割,將分割后的手部圖像二值化,得到圖2 所示結(jié)果。依靠深度閾值分割的方法在手部離人體有一定距離的時(shí)候效果良好,當(dāng)手部貼近人體的時(shí)候會(huì)有較大的誤差。此時(shí),需要把基于彩色圖像的膚色分割的方法引入,能夠有效地克服此問(wèn)題。
圖2 手部分割效果
在不同的色彩空間中,聚類特性的表達(dá)并不一致。在傳統(tǒng)的RGB 色彩空間中色度信息與亮度信息是無(wú)法分離的,周圍環(huán)境光照改變而導(dǎo)致的亮度變化也會(huì)使膚色檢測(cè)更加困難,因此在RGB 色彩空間進(jìn)行膚色分割并不理想。
為了充分利用膚色在色彩空間中的聚類特性,需要把彩色圖像中的色度信息與亮度信息分開(kāi)。在YCbCr 色彩空間中,Cb代表藍(lán)色分量,Cr代表紅色分量,能夠有效地將亮度和色度分離。實(shí)驗(yàn)發(fā)現(xiàn),膚色區(qū)域在YCbCr 色彩空間中聚集在一個(gè)很小的范圍內(nèi),非常適合膚色分割。并且YCbCr 空間能夠在很大程度上消除亮度影響,降低色彩空間的維數(shù),減少計(jì)算復(fù)雜度。
因此,本文基于YCbCr 色彩空間建立了如下膚色檢測(cè)模型:
(1)顏色空間轉(zhuǎn)換,待測(cè)圖像原來(lái)的編碼格式是RGB 色彩空間的,需按照以下公式進(jìn)行轉(zhuǎn)換[13]。
(2)在YCbCr 色彩空間中,Cb分量對(duì)膚色信息特別敏感,而Cr、Y相對(duì)皮膚沒(méi)有明顯特征,我們只需要增強(qiáng)Cb分量,減去Cr、Y分量,更加突出膚色區(qū)域。Cb分量強(qiáng)化公式如式(10)所示。
(3)按照最大類間方差法對(duì)增強(qiáng)后的Cb分量做閾值分割。
人體彩色圖像經(jīng)過(guò)分割后如圖3 所示,分割后的圖像除了包含膚色區(qū)域中的臉部和手部,還包含了部分誤差信息。要想進(jìn)一步獲取手部信息,必須對(duì)誤差信息和臉部信息進(jìn)行排除,誤差信息主要包括膚色檢測(cè)的誤識(shí)別區(qū)域,其面積較小,數(shù)量較多,可利用面積特征將其排除,保留最大的兩塊區(qū)域即是臉部區(qū)域和手部區(qū)域。
上述內(nèi)容對(duì)深度圖像和彩色圖像分別采用了不同方式進(jìn)行分割,且在其各自適宜的場(chǎng)景下都具有良好的特性卻又各有缺點(diǎn)。
深度圖像是單通道圖像,像素值信息代表了像素點(diǎn)到設(shè)備的距離,經(jīng)過(guò)手部分割后,背景區(qū)域像素值為0,保留的區(qū)域像素值均大于0。深度閾值分割有助于去除膚色模型分割中人手之外的膚色部分,但是在手部離身體較近時(shí),深度閾值不明顯,深度模型中分割出來(lái)的圖像會(huì)包含極大的誤差信息,無(wú)法有效地分割出手部圖像。
彩色圖像經(jīng)過(guò)Cb通道的膚色分割后保存為單通道二值圖像Cb′th,在像素值分布上與深度模型分割后的圖像具有相同特性。膚色模型分割不會(huì)受到距離的影響,有助于剔除深度模型中誤判的背景區(qū)域。
因此,將深度模型和膚色模型分割后的圖像進(jìn)行邏輯與運(yùn)算,運(yùn)算結(jié)果B(x,y)為二值圖像像素值。深度圖像中深度閾值非0 的和膚色分割圖像中非0 的同位置像素點(diǎn)的運(yùn)算結(jié)果B(x,y)賦值為1,否則該像素點(diǎn)的運(yùn)算結(jié)果B(x,y)會(huì)被賦值為0。邏輯與運(yùn)算公式如式(11)所示。
式中:x、y分別代表圖像中像素點(diǎn)橫、縱坐標(biāo),B(x,y)=0 表示此像素點(diǎn)屬于背景區(qū)域,B(x,y)=1 表示像素點(diǎn)為手部區(qū)域。Gray(x,y)代表深度圖像像素值。代表Cb通過(guò)膚色分割后的像素值。
如圖4 所示,所提出的混合分割算法經(jīng)過(guò)混合運(yùn)算后得到最終的二值圖像,然后再運(yùn)算得到最終的手部分割圖像。深度閾值分割和膚色模型分割混合運(yùn)算后的手部圖像,能夠保持各自的優(yōu)點(diǎn),適應(yīng)大多數(shù)場(chǎng)景,具有良好的魯棒性。
圖4 混合分割算法效果
為了驗(yàn)證所提出的混合分割算法的有效性,最終搭建了實(shí)測(cè)平臺(tái)進(jìn)行驗(yàn)證,對(duì)多種手勢(shì)的手部分割效果進(jìn)行驗(yàn)證。具體測(cè)試效果如圖5 所示。
圖5 混合分割算法驗(yàn)證結(jié)果
如圖5 所示,基于深度模型和膚色模型的混合型手部分割方法,在正常的光照環(huán)境下,對(duì)于非指定的測(cè)試人員和背景環(huán)境均有良好的分割效果,具有良好的魯棒性,可以應(yīng)用于后續(xù)的手勢(shì)識(shí)別應(yīng)用。