盧夢(mèng)圓 官 巍 馬 力
(西安郵電大學(xué)計(jì)算機(jī)學(xué)院 西安 710061)
隨著計(jì)算機(jī)視覺(jué)技術(shù)的飛速發(fā)展,人機(jī)交互的日益普及已經(jīng)在手勢(shì)識(shí)別領(lǐng)域引起了巨大改革。人機(jī)交互技術(shù)分為兩類(lèi):基于傳感器和基于視覺(jué)的方法。基于傳感器的方法依靠機(jī)電設(shè)備收集手勢(shì)數(shù)據(jù),這種方法使用附在手上的傳感器設(shè)備提供手掌位置、動(dòng)作、手掌的準(zhǔn)確坐標(biāo)和手指的位置和方向,如數(shù)據(jù)手套,但缺點(diǎn)是設(shè)備昂貴,并且限制了手勢(shì)的自然表達(dá)。因此為了克服這些困難,基于視覺(jué)的手勢(shì)識(shí)別技術(shù)應(yīng)運(yùn)而生。
基于視覺(jué)的手勢(shì)識(shí)別主要包括三個(gè)基本步驟:手勢(shì)分割、手勢(shì)的特征提取、手勢(shì)識(shí)別。其中,特征的提取和分類(lèi)器的選取對(duì)手勢(shì)識(shí)別的準(zhǔn)確率和效率起著至關(guān)重要的作用。手勢(shì)的特征可以總結(jié)為顏色、形狀、紋理等?;陬伾奶卣饔校侯伾狈綀D[8~10],基于形狀的特征有梯度方向直方圖(Histo?gram of Oriented Gradients,HOG)[1,11]和Haar-like特征[12]。基于紋理的特征有:局部二值圖(Local Binary Pattern,LBP)[13]和Gabor[8]。這些特征已經(jīng)被應(yīng)用到基于視覺(jué)的手勢(shì)識(shí)別中。HOG 特征具有幾何和光照不變性?xún)?yōu)點(diǎn),在特征提取中被廣泛應(yīng)用。Misra[3]和Zhao[4]等使用HOG 特征構(gòu)建SVM 模型用于手勢(shì)識(shí)別,在一定程度上,該算法可以解決光照變化和手勢(shì)旋轉(zhuǎn)對(duì)識(shí)別結(jié)果的影響。然而它僅適用于單個(gè)手勢(shì)在簡(jiǎn)單背景下的識(shí)別。文獻(xiàn)[5]提取了HOG特征,結(jié)合SVM分類(lèi)器,實(shí)驗(yàn)結(jié)果表明識(shí)別率高達(dá)92.5%,在光照上具有很好的魯棒性,但是不適用于復(fù)雜環(huán)境。孫等采用基于Hu不變矩的輪廓匹配算法[6,16],得到較好的手勢(shì)識(shí)別結(jié)果。文獻(xiàn)[7]中作者使用HOG 特征結(jié)合SVM,進(jìn)行70-30 的交叉驗(yàn)證,實(shí)驗(yàn)結(jié)果實(shí)現(xiàn)了能夠很好區(qū)分手勢(shì)和非手勢(shì)。文獻(xiàn)[7]中比較了常用的兩種特征提取方法:SIFT 和SURF,使用包含10 種手勢(shì)的數(shù)據(jù)庫(kù),將SVM 作為分類(lèi)器。SURF 方法的識(shí)別率是82.8%,SIFT 方法的識(shí)別率為81.2%。手勢(shì)識(shí)別的另一關(guān)鍵技術(shù)是選擇好的分類(lèi)算法用于訓(xùn)練手勢(shì)分類(lèi)模型,常見(jiàn)分類(lèi)器包括:支持向量機(jī)(SVM)[9~10,13,17],期望最大化(EM)[13],貝葉斯模型[10],隱馬爾科夫模型[15]等。
考慮到單一特征的局限性,本文提出一種基于HOG 和LBP 特征融合的支持向量機(jī)識(shí)別方法,實(shí)驗(yàn)結(jié)果表明,多特征融合算法相比于單一特征,有較高的識(shí)別率。
方向梯度直方圖(Histogram of Oriented Gradi?ent,HOG)特征是一種在計(jì)算機(jī)視覺(jué)和圖像處理中用來(lái)進(jìn)行物體檢測(cè)的特征描述子。最早是由法國(guó)研究人員Dalal[1]在2005 的CVPR 上提出用于行人檢測(cè),并且獲得了極大的成功。它通過(guò)計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的梯度方向直方圖來(lái)構(gòu)成特征。它的基本思想是把圖像分成若干重疊的塊(block),每個(gè)block 進(jìn)一步劃分為非重疊區(qū)域叫做cell。計(jì)算每個(gè)像素的梯度幅值和方向,這樣就得到了每個(gè)cell 的梯度方向直方圖。每個(gè)block 內(nèi)所有的cell特征向量串聯(lián)起來(lái)就得到該block 的HOG 特征。將圖像內(nèi)的所有block 的HOG 特征串聯(lián)起來(lái)就可以得到該圖像的HOG特征了。
LBP(Local Binary Pattern,局部二值模式)是一種用來(lái)描述圖像局部紋理特征的算子;它具有旋轉(zhuǎn)不變性和灰度不變性等顯著的優(yōu)點(diǎn)。它是首先由Ojala 和Harwood[2]在1994 年提出,用于紋理特征提取。LBP 算子定義為在3×3 的窗口內(nèi),以窗口中心像素為閾值,將相鄰的8 個(gè)像素的灰度值與其進(jìn)行比較,若周?chē)袼刂荡笥谥行南袼刂?,則該像素點(diǎn)的位置被標(biāo)記為1,否則為0。這樣,3×3鄰域內(nèi)的8個(gè)點(diǎn)經(jīng)比較可產(chǎn)生8 位二進(jìn)制數(shù)(通常轉(zhuǎn)換為十進(jìn)制數(shù)即LBP 碼,共256 種),即得到該窗口中心像素點(diǎn)的LBP值。
HOG 特征已經(jīng)被證明是用于獲取邊緣和局部形狀信息的最好特征之一,在目標(biāo)檢測(cè)和識(shí)別上取得了極大的成功。然而它們對(duì)圖像的旋轉(zhuǎn)不具魯棒性,并且相同指向的梯度可能對(duì)應(yīng)不同的結(jié)構(gòu)。事實(shí)上,圖像背景的邊緣信息通常都很復(fù)雜,會(huì)導(dǎo)致識(shí)別準(zhǔn)確率下降。LBP 特征在提取紋理特征方面非常有效,并且可以描述圖像的細(xì)節(jié),對(duì)灰度級(jí)變化和旋轉(zhuǎn)變化具有魯棒性。
因此,本文提出融合HOG 特征與LBP 特征的算法來(lái)實(shí)現(xiàn)手勢(shì)識(shí)別,采用簡(jiǎn)單的串聯(lián)連接對(duì)兩種特征進(jìn)行融合,將融合后的特征向量作為分類(lèi)器的輸入,以期獲得較高的識(shí)別率。
SVM 是一種用于分類(lèi)問(wèn)題的有監(jiān)督機(jī)器學(xué)習(xí)算法,SVM的主要原理是在訓(xùn)練集上建立一個(gè)最優(yōu)分類(lèi)超平面,使得正類(lèi)訓(xùn)練樣本和負(fù)類(lèi)訓(xùn)練樣本不僅能夠準(zhǔn)確分開(kāi),而且保證兩類(lèi)訓(xùn)練樣本點(diǎn)之間的分類(lèi)間隔達(dá)到最大,并且分類(lèi)間隔越大,最優(yōu)分類(lèi)超平面對(duì)測(cè)試樣本點(diǎn)的正確分類(lèi)能力越高。SVM最初被用作二分類(lèi),后來(lái)逐漸被應(yīng)用到多分類(lèi)問(wèn)題中。本文選取線性SVM作為分類(lèi)器,將融合后的特征向量輸入線性SVM分類(lèi)器完成手勢(shì)的分類(lèi)識(shí)別。
圖1 American Sign Language數(shù)據(jù)庫(kù)部分樣例示意圖
實(shí)驗(yàn)所使用的數(shù)據(jù)庫(kù)是American Sign Lan?guage(ASL)手勢(shì)數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)共有24 種手勢(shì),分別表示除了J 和Z 以外的24 個(gè)英文字母。每個(gè)手勢(shì)分別由5 個(gè)人在不同背景下完成,每個(gè)手勢(shì)樣本1000 張圖片,RGB 和深度圖像各500 張。共有24×5×1000=120000 張圖像。本文主要通過(guò)對(duì)ASL 數(shù)據(jù)庫(kù)中的手勢(shì)圖片進(jìn)行分類(lèi)識(shí)別,從而驗(yàn)證提出的特征融合算法的可行性。本實(shí)驗(yàn)只選取24 種手勢(shì)的RGB 圖像進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)包含訓(xùn)練集(48000個(gè)),測(cè)試集(12000個(gè))。ASL的字母如圖1所示。
為了進(jìn)行對(duì)比,我們分別使用HOG 特征,LBP特征,HOG+LBP特征訓(xùn)練和測(cè)試手勢(shì)分類(lèi)模型,并且比較每一種特征在它的最佳模型中的識(shí)別率。
4.2.1 基于HOG+SVM的實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)首先單獨(dú)提取了手勢(shì)的HOG 特征,為了減少HOG 特征向量的維數(shù),將手勢(shì)圖像歸一化到64×128,每個(gè)block由2×2個(gè)cell組成,bin的個(gè)數(shù)是9,block 的移動(dòng)步長(zhǎng)為一個(gè)cell,cell 大小N1×N1個(gè)block的特征維數(shù)為2×2×9=36。
特征維數(shù)的計(jì)算公式如下:
在HOG 特征的提取中,本文采用線性SVM,對(duì)不同區(qū)域塊大小進(jìn)行手勢(shì)識(shí)別,從而獲得最優(yōu)的特征提取參數(shù)。表1 是選取不同區(qū)域塊,采用線性SVM分類(lèi)器的實(shí)驗(yàn)結(jié)果。
表1 不同區(qū)域塊劃分的HOG特征識(shí)別結(jié)果
由上述實(shí)驗(yàn)可知,區(qū)域塊大小的不同直接影響HOG 特征的分類(lèi)結(jié)果準(zhǔn)確率。當(dāng)區(qū)域塊尺寸過(guò)小,HOG 的維度就會(huì)很高,識(shí)別率反而低,這說(shuō)明HOG 特征中存在過(guò)多的冗余信息,干擾了線性SVM 的識(shí)別。因此對(duì)于線性SVM 分類(lèi)器來(lái)說(shuō),HOG特征的最佳區(qū)域塊劃分為8×8。
圖2 基于HOG特征的24種手勢(shì)識(shí)別結(jié)果
特征維度太大會(huì)引起訓(xùn)練和識(shí)別時(shí)間過(guò)長(zhǎng),對(duì)電腦的內(nèi)存需求也會(huì)增大,為了減少維度同時(shí)保持高識(shí)別率,本文采用線性SVM 作為分類(lèi)器,采取識(shí)別效果最佳的3780 維HOG 特征,對(duì)ASL 數(shù)據(jù)集的24種手勢(shì)進(jìn)行識(shí)別。結(jié)果如下:
由圖2可知,有7種手勢(shì)識(shí)別率在90%以上,有12 種手勢(shì)識(shí)別率在80%~90%之間,有4 種手勢(shì)識(shí)別率在70%~80%之間,只有一種手勢(shì)識(shí)別率為63.2%,總體來(lái)說(shuō)HOG特征結(jié)合SVM分類(lèi)器能夠較好用于手勢(shì)識(shí)別。
4.2.2 基于LBP+SVM的實(shí)驗(yàn)結(jié)果
原始的LBP 算子,由于直接利用灰度比較,所以其具有灰度不變性;但是,有兩個(gè)很明顯的缺點(diǎn):一是產(chǎn)生的二進(jìn)值模式過(guò)多,二是不具備旋轉(zhuǎn)不變性。為了解決二進(jìn)制模式過(guò)多的問(wèn)題,提高統(tǒng)計(jì)性,本文采用均值模式或等價(jià)模式LBP(Uniform LBP)進(jìn)行降維,“等價(jià)模式”定義為:當(dāng)某個(gè)LBP 所對(duì)應(yīng)的循環(huán)二進(jìn)制數(shù)從0 到1 或從1 到0 最多有兩次跳變時(shí),該LBP所對(duì)應(yīng)的二進(jìn)制就稱(chēng)為一個(gè)等價(jià)模式類(lèi)。如00000000(0 次跳變),00000111(只含一次從0 到1 的跳變),10001111(先由1 跳到0,再由0跳到1,共兩次跳變)都是等價(jià)模式類(lèi)。除等價(jià)模式類(lèi)以外的模式都?xì)w為另一類(lèi),稱(chēng)為混合模式類(lèi),例如10010111(共四次跳變)。通過(guò)這樣的改進(jìn),二進(jìn)制模式的種類(lèi)大大減少,而不會(huì)丟失任何信息。模式數(shù)量由原來(lái)的2p種減少為P(P-1)+2種,其中P 表示鄰域集內(nèi)的采樣點(diǎn)數(shù)。對(duì)于3×3 鄰域內(nèi)8 個(gè)采樣點(diǎn)來(lái)說(shuō),二進(jìn)制模式由原始的256 種減少為58 種,即:它把值分為59 類(lèi),58 個(gè)等價(jià)模式為一類(lèi),其他的所有值為第59 類(lèi)。這樣直方圖從原來(lái)的256 維變成59 維。這使得數(shù)據(jù)量減少的情況下能最好的表示圖像的信息,并且可以減少高頻噪聲帶來(lái)的影響。
輸入圖像的尺寸為64×128,cell 大小N1×N1,LBP的特征維數(shù)V計(jì)算公式如下:
表2 不同區(qū)域塊劃分的LBP特征識(shí)別結(jié)果
在LBP 特征的提取中,本文采用線性SVM,對(duì)不同區(qū)域塊大小進(jìn)行手勢(shì)識(shí)別,從而獲得最優(yōu)的特征提取參數(shù)。表2 是選取不同區(qū)域塊,采用線性SVM分類(lèi)器的實(shí)驗(yàn)結(jié)果。
由表2 可知:對(duì)于線性SVM 分類(lèi)器來(lái)說(shuō),LBP特征的最佳區(qū)域塊劃分為8×8。因此采取識(shí)別效果最佳的7552 維LBP 特征,對(duì)ASL 數(shù)據(jù)集的24 種手勢(shì)進(jìn)行識(shí)別。結(jié)果如下:
圖3 基于LBP特征的24種手勢(shì)識(shí)別結(jié)果
由圖3 實(shí)驗(yàn)結(jié)果可知,有14 種手勢(shì)識(shí)別率在90%以上,9 種手勢(shì)識(shí)別率在80%~90%之間,僅有一種識(shí)別率為62.2%,總體識(shí)別效果較好。
4.2.3 本文算法
通過(guò)上面的算法可知,HOG 特征和LBP 特征都能對(duì)手勢(shì)有較好的識(shí)別結(jié)果,為了進(jìn)一步提高手勢(shì)的分類(lèi)準(zhǔn)確率,本文分別提取了手勢(shì)的HOG 和LBP 特征向量,見(jiàn)式(3)和(4),之后將兩種特征進(jìn)行簡(jiǎn)單串聯(lián)融合,最終形成11332維的特征向量。
其中,d=3780,為HOG 特征的維數(shù),f=7552,為L(zhǎng)BP特征的維數(shù)。則融合后的特征F為
最后我們把融合得到的特征向量作為線性SVM的輸入,具體的識(shí)別流程如下:
基于本文提出的多特征融合+SVM,對(duì)ASL 數(shù)據(jù)集的24 種手勢(shì)進(jìn)行分類(lèi)識(shí)別,最終得到24 個(gè)手勢(shì)類(lèi)別的分類(lèi)結(jié)果,計(jì)算出了24 個(gè)類(lèi)別的識(shí)別率。如圖折線圖4所示。
由圖5對(duì)測(cè)試集中的24種手勢(shì)分類(lèi)結(jié)果可知:有14 類(lèi)手勢(shì)識(shí)別率在80%~90%之間,有9 類(lèi)手勢(shì)在80%~90%之間,剩余一種識(shí)別率別為71%。這24類(lèi)手勢(shì)中最高識(shí)別率達(dá)98%。由此可見(jiàn),基于多特征融合的算法對(duì)手勢(shì)具有較好的識(shí)別率。
圖4 測(cè)試樣本各類(lèi)別分類(lèi)精確度
4.2.4 單一特征與本文算法比較
為了驗(yàn)證本文算法的優(yōu)越性,將兩種單一特征與本文的多特征融合算法的分類(lèi)準(zhǔn)確率進(jìn)行比較,24種手勢(shì)識(shí)別結(jié)果對(duì)比見(jiàn)圖5。
圖5 測(cè)試樣本各類(lèi)別分類(lèi)精確度單一特征與融合特征對(duì)比
24種手勢(shì)的平均識(shí)別率見(jiàn)表3。
表3 單一特征算法與本文算法準(zhǔn)確率對(duì)比分析
由上表可知:當(dāng)使用單一特征時(shí),識(shí)別率在85%~87%左右,而本文使用的算法識(shí)別率達(dá)90%實(shí)驗(yàn)表明,在基于單特征的識(shí)別中,HOG 特征的識(shí)別率高于LBP 特征。而本文使用的多特征融合算法識(shí)別率達(dá)90%,因此,本文使用的多特征融合算法要優(yōu)于單一特征。這也驗(yàn)證了HOG 特征與LBP特征具有互補(bǔ)性,多特征融合方算法要優(yōu)于以提高識(shí)別率。
本文采取多特征融合的方法提取手勢(shì)特征,先后提取手勢(shì)圖像的HOG 和LBP 特征,將兩種特征按一定的權(quán)重融合后通過(guò)SVM 分類(lèi)器進(jìn)行分類(lèi)識(shí)別。并且實(shí)驗(yàn)選取的ASL 數(shù)據(jù)集是在不同復(fù)雜背景下拍攝的圖像,通過(guò)以上的實(shí)驗(yàn)表明,該方法具有較高的識(shí)別率。在未來(lái)的工作中,希望可以將多特征融合算法與深度學(xué)習(xí)相結(jié)合,對(duì)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,為研究更高識(shí)別率的手勢(shì)圖像分類(lèi)算法做進(jìn)一步的努力。