亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于快速魯棒性特征和隱馬爾可夫模型的手語識(shí)別

2018-03-15 08:25:51陳梯孫杳如

現(xiàn)代計(jì)算機(jī) 2018年3期

陳梯，孫杳如

（同濟(jì)大學(xué)電子與信息工程學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系，上海 201804）

0 引言

當(dāng)前社會(huì)，人機(jī)交互技術(shù)成為了愈加熱門的研究領(lǐng)域，而通過手勢(shì)與計(jì)算機(jī)設(shè)備交互則是一種最直接的方式，手勢(shì)識(shí)別的研究因此而生。最初主要是利用專用硬件設(shè)備進(jìn)行輸入，最常見的數(shù)據(jù)手套就是一種通過人手佩戴來獲取位置信息，手指伸展信息的設(shè)備。外部設(shè)備的介入雖然可以提高識(shí)別的準(zhǔn)確度和穩(wěn)定性，但卻違背了手勢(shì)自然的表達(dá)方式。于是，基于視覺的手勢(shì)識(shí)別成為一種必然趨勢(shì)。Pallavi Gurjal和Kiran Kunnur等人提出利用尺度不變性特征變換（SIFT）特征，對(duì)美國(guó)手語26個(gè)英文字母（A-Z）進(jìn)行識(shí)別并取得良好效果[1]。Jiatong Bao和Aiguo Song等人則利用快速魯棒性特征（SURF）同樣對(duì)26個(gè)英文字母進(jìn)行手勢(shì)識(shí)別，識(shí)別率為87.1%[2]。楊全、彭進(jìn)業(yè)則利用Kinect攝像頭獲取字母的手語視頻，對(duì)實(shí)時(shí)圖像提取SIFT特征，利用SVM進(jìn)行訓(xùn)練和識(shí)別，解決了復(fù)雜背景下手勢(shì)的檢測(cè)分割難題，也取得了不錯(cuò)的識(shí)別效果[3]。胡章芳和楊麟也是利用SURF特征對(duì)每個(gè)手語字母進(jìn)行了150次實(shí)驗(yàn)后得到了97.7%的平均識(shí)別率[4]。Mahmud H和Hasan M K等人同樣對(duì)手勢(shì)圖像提取SIFT特征，然后利用SVM用于訓(xùn)練和識(shí)，并獲得了很好的識(shí)別率[5]。

基于上述工作，本文提出一種基于深度圖像提取SURF特征和隱馬爾可夫模型（HMM）的手語識(shí)別方法。不同于一般的攝像頭，本次實(shí)驗(yàn)采用的數(shù)據(jù)集是由Kinect攝像頭拍攝的視頻序列，因此可以基于深度信息進(jìn)行手勢(shì)分割，提取實(shí)時(shí)手勢(shì)圖像，并且利用SURF算法對(duì)提取的手勢(shì)圖像進(jìn)行分析，提取特征序列，輸入到HMM中進(jìn)行訓(xùn)練和識(shí)別，一定程度上解決了光照變化、角度旋轉(zhuǎn)和復(fù)雜背景等難題。

1 手勢(shì)檢測(cè)與分割

深度攝像頭可以獲取深度信息，并且不受環(huán)境光照以及背景復(fù)雜度的影響，將其用于基于視覺的手勢(shì)識(shí)別中，能幫助我們更好地對(duì)手勢(shì)進(jìn)行檢測(cè)分割。Kinect就是一種由微軟開發(fā)的深度攝像頭，本文實(shí)驗(yàn)所采用的數(shù)據(jù)集都是由Kinect攝像頭所拍攝的。深度信息對(duì)應(yīng)于物體與攝像頭之間距離，因此我們可以利用深度值來區(qū)分出手勢(shì)區(qū)域和背景區(qū)域，因?yàn)橐话闱闆r下，手勢(shì)往往是離深度攝像頭最近的一塊區(qū)域。實(shí)驗(yàn)時(shí)，由于人與攝像頭之間的距離并不是固定不變的，所以很難根據(jù)某一具體的閾值來分割手勢(shì)。根據(jù)深度圖像的特性，同一深度的像素點(diǎn)在深度圖像中的灰度值是相同的，這意味著我們可以通過建立灰度直方圖[6]的方式來分割出手勢(shì)。同一段灰度值所對(duì)應(yīng)的區(qū)域即是深度圖像中與攝像頭同樣距離的像素點(diǎn)，并且距離越近，則灰度值越大。因此我們選擇灰度值最大的區(qū)域塊進(jìn)行分析，即可以將手勢(shì)區(qū)域與背景區(qū)域分割。

2 特征提取

2.1 采用SURF特征檢測(cè)算法提取手勢(shì)圖像的局部特征

SURF（Speeded Up Robust Features,加速魯棒性特征）是一個(gè)穩(wěn)健的圖像識(shí)別和描述算法，于2006年由Herbert Bay在ECCV大會(huì)上首次提出[7]。SURF算法簡(jiǎn)單高效，并且具有良好的魯棒性。采用此算法提取手勢(shì)圖像的局部特征，實(shí)現(xiàn)尺度不變性的特征點(diǎn)檢測(cè)，主要由以下5個(gè)步驟組成：a）Hessian矩陣構(gòu)建；b）尺度空間生成；c）精確定位特征點(diǎn)與主方向；d）構(gòu)造SURF特征點(diǎn)描述算子。

Hessian矩陣是SURF算法的核心，由函數(shù)偏導(dǎo)數(shù)組成。手勢(shì)圖像中每個(gè)像素點(diǎn)的Hessian Matrix可以按公式（1）定義，假設(shè)函數(shù) f(x,y)：

利用二階標(biāo)準(zhǔn)高斯函數(shù)作為濾波器，計(jì)算出H矩陣的三個(gè)矩陣元素Lxy,Lxx,Lyy，從而得到H矩陣公式：

上式（3）中L(x,t)表示一幅在不同解析度下的圖像，即可以通過高斯函數(shù)G(t)與圖像函數(shù)I(x)在點(diǎn)x的卷積來實(shí)現(xiàn)，其中t為高斯方差。通過這種方法可以為圖像中每個(gè)像素計(jì)算出H矩陣的決定值，并用來判別特征點(diǎn)。Herbert Bay提出用近似值代替L(x,t)，為平衡準(zhǔn)確值與近似值間的誤差引入權(quán)值，權(quán)值隨尺度變化，所以H矩陣判別式可表示為：

圖像的尺度空間是這幅圖像在不同解析度下的表示。SURF中尺度是由方型濾波器的大小決定的，越往上層，尺度濾波器越大。

在多尺度空間中，將經(jīng)過Hessian矩陣處理過的每個(gè)像素點(diǎn)與其26個(gè)領(lǐng)域值進(jìn)行比較，保留最大值和最小值，通過預(yù)設(shè)閾值和增加極值以檢測(cè)出幾個(gè)最強(qiáng)的特征點(diǎn)。統(tǒng)計(jì)特征點(diǎn)的Haar小波特征，計(jì)算響應(yīng)總和，對(duì)這些響應(yīng)相加以形成新的矢量，取矢量最長(zhǎng)的方向?yàn)樵撎卣鼽c(diǎn)的主方向。

在特征點(diǎn)周圍取一個(gè)正方形框，劃分為16個(gè)子塊，統(tǒng)計(jì)每個(gè)子區(qū)域像素的水平方向和垂直方向的Haar小波特征（水平方向之和∑dx，水平方向絕對(duì)值之和，垂直方向之和∑dy，垂直方向絕對(duì)值之和

此時(shí)獲取的64維特征向量的描述子數(shù)量是不穩(wěn)定的，因?yàn)槿说氖植繀^(qū)域離攝像頭的距離會(huì)影響特征點(diǎn)的檢測(cè)，所以還需進(jìn)一步處理SURF特征描述子。

2.2 生成視覺詞典

BOF（Bag Of Features）即詞袋[8]，是一種用于圖像或視頻檢索的技術(shù)，把每幅圖像描述為一個(gè)局部區(qū)域/關(guān)鍵點(diǎn)特征的無序集合。從上一步提取出的SURF特征數(shù)據(jù)集中隨機(jī)選取K個(gè)作為初始聚類中心，聚類算法采用K-means算法；求出SURF描述子數(shù)據(jù)集的每個(gè)數(shù)據(jù)與各個(gè)聚類中心的距離，按照最小化原則將數(shù)據(jù)劃分入最近鄰聚類中心的類簇；然后再重新計(jì)算每個(gè)類簇的中心直到每個(gè)聚類中心不會(huì)再改變時(shí)，整個(gè)算法結(jié)束。此時(shí)，每個(gè)聚類中心就是一個(gè)視覺詞匯，所有的視覺詞匯形成一個(gè)視覺詞典。將手勢(shì)圖像中提取的SURF特征描述子分配到離它最近的一個(gè)視覺詞匯上，視覺詞匯對(duì)應(yīng)的維度高度加1，當(dāng)所有的特征描述子分配完畢后，手勢(shì)圖像就可以用一個(gè)K維的視覺詞匯直方圖表示，然后對(duì)直方圖進(jìn)行歸一化處理。最后通過TF-IDF對(duì)頻數(shù)表加上權(quán)重，生成最終的BOF。

3 手勢(shì)訓(xùn)練和識(shí)別

3.1 HMM基本原理

隱馬爾可夫模型（HMM，Hidden Markov Model）最早在20世紀(jì)60年代后半期被Leonard E.Baum等人在一些統(tǒng)計(jì)學(xué)論文中提出，在隱馬爾可夫模型中，狀態(tài)是不可見的，但是某些變量是可見的，這些變量受狀態(tài)影響，每一種狀態(tài)的輸出都有相應(yīng)的概率分布[9-11]。在隱馬爾可夫模型中包含兩個(gè)過程，一個(gè)是現(xiàn)實(shí)中可見的觀測(cè)值，另一個(gè)是觀測(cè)值下的隱藏狀態(tài)，觀測(cè)值和隱藏狀態(tài)之間存在一個(gè)概率函數(shù)，同樣地，每個(gè)隱藏狀態(tài)之間也有相應(yīng)的狀態(tài)轉(zhuǎn)換概率。如下圖所示，x表示隱藏狀態(tài)，y表示觀察值，a表示狀態(tài)轉(zhuǎn)換概率，b表示輸出概率。

圖1 隱馬爾可夫模型狀態(tài)變遷圖

一般的隱馬爾可夫模型可以表示為λ=(N,M,A,B,π)。其中N表示隱藏狀態(tài)個(gè)數(shù)，M表示觀察值個(gè)數(shù)，A表示隱藏狀態(tài)的轉(zhuǎn)換概率矩陣。記A=[aij]N×N。其中aij是在時(shí)刻t，狀態(tài)為qi的條件下，時(shí)刻t+1轉(zhuǎn)移到狀態(tài) qj的概率。如下公式（4），其中 aij≥0，并且

B則表示觀察轉(zhuǎn)換概率矩陣。記B=(bij)N×M。其中bij是在時(shí)刻t，狀態(tài)為qi的條件下，生成觀測(cè)vj的概率。如下公式（5），其中bij≥0，并且

π則表示初始狀態(tài)的概率分布。記π=（πi）N×1。其中 πi是在時(shí)刻 t=1的條件下，處于隱藏狀態(tài) q1的概率。如下公式（6），其中 πi≥0，并且

3.2 HMM在手勢(shì)識(shí)別中的應(yīng)用

HMM在語音識(shí)別領(lǐng)域已得到成功應(yīng)用，在手勢(shì)識(shí)別領(lǐng)域，它同樣有著廣泛應(yīng)用。例如Schlenzig等人[12]的實(shí)驗(yàn)就表明了HMM可以成功應(yīng)用在連續(xù)手勢(shì)識(shí)別中。要利用HMM為手勢(shì)識(shí)別建模，首先需初始化一個(gè)HMM模型；提取訓(xùn)練樣本中的觀測(cè)序列Y，采用Viterbi算法[13]求出初始模型下的P(Y|λ)；利用Baum-Welch算法[14]重新估計(jì)初始模型的參數(shù)，得到一個(gè)新模型；再利用Viterbi算法求出新模型下的P(Y|λ)；重復(fù)上兩步計(jì)算，直至 P(Y|λ)收斂，即訓(xùn)練手勢(shì)模型的過程結(jié)束，這里為樣本庫(kù)中每個(gè)手勢(shì)訓(xùn)練出一個(gè)HMM模型。在識(shí)別階段，提取出測(cè)試集中的觀測(cè)序列Y，利用前向-后向（forward-backward）算法求出該觀測(cè)序列Y與各個(gè)手勢(shì)模型的匹配概率值P(Y|λ)，之后選取最大的概率值對(duì)應(yīng)的手勢(shì)，即為識(shí)別結(jié)果。整個(gè)過程中即解決HMM的三大問題，如下表所示：

表1

4 實(shí)驗(yàn)結(jié)果

為驗(yàn)證該系統(tǒng)可行性，本次實(shí)驗(yàn)所選的視頻樣本是中國(guó)科學(xué)院計(jì)算技術(shù)研究所視覺信息處理和學(xué)習(xí)研究組發(fā)布的開源DEVISIGN中國(guó)手語數(shù)據(jù)庫(kù)。在數(shù)據(jù)庫(kù)中選取字母A-H等8種手勢(shì)的視頻樣本作為本次實(shí)驗(yàn)的訓(xùn)練測(cè)試集，其中每種手勢(shì)集都由8位不同實(shí)驗(yàn)者，每人演示5次組成，總共400個(gè)手勢(shì)樣本。實(shí)驗(yàn)中，將240個(gè)樣本作為測(cè)試集訓(xùn)練A-H每種手勢(shì)的HMM模型，剩余160個(gè)樣本用于測(cè)試模型的準(zhǔn)確性。圖2是A-H手勢(shì)表示圖。

圖2 手勢(shì)A-H

表2是本次實(shí)驗(yàn)中8種手勢(shì)的手勢(shì)識(shí)別率，由表可得8種手勢(shì)的平均識(shí)別率是93%。因此對(duì)深度手勢(shì)圖像進(jìn)行手勢(shì)分割、提取SURF特征和HMM訓(xùn)練識(shí)別，可以得到較高的識(shí)別率。

表2 A-H手勢(shì)識(shí)別率

5 結(jié)語

本文主要提出了一種基于深度手勢(shì)圖像SURF特征和HMM的手語識(shí)別方法，并通過實(shí)驗(yàn)驗(yàn)證了該方法的可行性以及有效性?；赟URF特征訓(xùn)練模型，可以使系統(tǒng)在背景、光照和尺度變化下都能表現(xiàn)出較強(qiáng)的魯棒性。但是由于手語的表示極其復(fù)雜，而且本次實(shí)驗(yàn)使用樣本的手勢(shì)種類較少，隨著手勢(shì)種類以及數(shù)目的增加，僅僅提取圖像的局部性特征還不夠，未來工作將圍繞如何提取更具代表性的手勢(shì)特征，或是將SURF與其他特征，例如Fourier描述子，相結(jié)合以達(dá)到對(duì)復(fù)雜手勢(shì)有更好的識(shí)別效果。此外，本文所涉及的圖像識(shí)別技術(shù)可應(yīng)用于模式識(shí)別、人機(jī)交互、智能增材制造等應(yīng)用領(lǐng)域。

[1]Gurjal P,Kunnur K.Real Time Hand Gesture Recognition Using SIFT[J].International Journal of Electronics and Electrical Engineering,2012,2(3):19-33.

[2]Bao J,Song A,Guo Y,et al.Dynamic Hand Gesture Recognition Based on SURF Tracking[C].Electric Information and Control Engineering(ICEICE),2011 International Conference on.IEEE,2011:338-341.

[3]楊全,彭進(jìn)業(yè).基于手語視覺單詞特征的手語字母識(shí)別研究[J].計(jì)算機(jī)工程,2014,40(4):192-197,202.

[4]胡章芳,楊麟,羅元,等.一種基于改進(jìn)的SURF算法的靜態(tài)手語字母識(shí)別方法[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2013,25(4):544-548.

[5]Mahmud H,Hasan M K,Abdullah-Al-Tariq M A.Hand Gesture Recognition Using SIFT Features on Depth Image[J].

[6]藍(lán)章禮,李益才.數(shù)字圖像處理與圖像通信[M].北京：清華大學(xué)出版社,2009.

[7]Bay H,Ess A,Tuytelaars T,et al.Speeded-up Robust Features(SURF)[J].Computer Vision and Image Understanding,2008,110(3):346-359.

[8]Nowak E,Jurie F,Triggs B.Sampling Strategies for Bag-of-Features Image Classification[J].Computer Vision-ECCV 2006,2006:490-503.

[9]張海波.基于DHMM的視覺語言識(shí)別[D].吉林大學(xué),2010.

[10]Juang B H,Rabiner L R.Hidden Markov Models for Speech Recognition[J].Technometrics,1991,33(3):251-272.

[11]Kim D,Song J,Kim D.Simultaneous Gesture Segmentation and Recognition Based on Forward Spotting Accumulative HMMs[J].Pattern Recognition,2007,40(11):3012-3026.

[12]Schlenzig J,Hunter E,Jain R.Recursive Identification of Gesture Inputs Using Hidden Markov Models[C].Applications of Computer Vision,1994.,Proceedings of the Second IEEE Workshop on.IEEE,1994:187-194.

[13]Forney G D.The Viterbi Algorithm[J].Proceedings of the IEEE,1973,61(3):268-278.

[14]Welch L R.Hidden Markov Models and the Baum-Welch Algorithm[J].IEEE Information Theory Society Newsletter,2003,53(4):10-13.