亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于BS-HMM和巴式距離的手勢識別技術(shù)研究

2019-06-17 09:59:34朱正偉

計算機應(yīng)用與軟件 2019年6期

朱正偉祝磊饒鵬

1(常州大學信息科學與工程學院江蘇常州 213164)2(常州光電技術(shù)研究所江蘇常州 213164)

0 引言

手勢識別交互技術(shù)是人機交互(HCI)研究的主要焦點之一。目前，對于手勢識別(HGR)的研究方法也比較多樣化，這些方法可以根據(jù)所使用的傳感器的不同進行分類[1]。一般分為基于數(shù)據(jù)手套的手勢識別和基于計算機視覺的手勢識別，后者使人機交互更加自然，已經(jīng)成為手勢識別研究的重點。本文提出了一種基于Kinect深度傳感器的手勢識別系統(tǒng)，無需在用戶身上穿戴任何外接設(shè)備。

基于Kinect深度傳感器的手勢識別研究大致分為手勢分割、跟蹤定位和特征提取三個過程。Pisharady等[2]針對在復雜背景下手勢分割不準確的問題，提出了一個多類手姿態(tài)的手勢識別系統(tǒng)，并取得了較理想的效果。Chen等[3]利用系統(tǒng)當前環(huán)境對對象物體進行追蹤，通過Kinect捕獲的圖像深度信息來對前景進行提取，并快速捕捉到目標物體。Yang等[4]利用HOG描述符來表示手勢，闡述了傳統(tǒng)RGB相機所捕獲到的圖像的局部結(jié)構(gòu)特征。Ji等[5]開發(fā)了一種RGB視頻序列描述符，將HOG的概念推廣到了3D中。除了使用RGB攝像頭之外，Wu等[6]將HOG描述符運用到了深度圖像中。Oreifej等[7]提出了一種基于HON4D特征來描述序列深度圖，可以同時捕獲手部形狀及其運動信息。Wang等[8]則為深度序列提出了隨機占用模式(ROP)特征。

目前，絕大部分的手勢識別系統(tǒng)主要使用K最近鄰算法(K-NNs)、支持向量機(SVM)、神經(jīng)網(wǎng)絡(luò)和有限狀態(tài)機(FSM)等[9]。特別是隱馬爾科夫模型(HMMs)，每個觀測都可以被視為一個混合模型，給捕捉數(shù)據(jù)提供一個強大的概率框架，可以直接用來識別手勢[10]。值得注意的是，在標準HMM中，模型觀測狀態(tài)符合混合高斯分布，經(jīng)常使用極大似然估計(MLE)來對參數(shù)進行評估，這樣導致模型的訓練量較大。為了解決過度擬合的問題，Saon等[11]提出了一種結(jié)合貝葉斯壓縮感知的隱馬爾科夫模型(BS-HMM)，并將其應(yīng)用到語音識別中。

本文利用手勢圖像的深度信息，將分布序列引入到BS-HMM中，每個分布均由k個連續(xù)的幀圖像組成作為觀測，利用巴氏距離研究每個觀測序列概率分布。在該系統(tǒng)中，將巴式距離結(jié)合BS-HMM對各類手勢進行建模，然后通過最大期望算法(EM)來訓練參數(shù)，這樣做的優(yōu)點如下：(1)系統(tǒng)學習了基于深度圖像特征的隱藏狀態(tài)，所建模型要比基于HMM的手勢識別系統(tǒng)更加規(guī)范。(2)將巴式距離融入到了BS-HMM中(稱為BDBS-HMM)，給處理深度圖像特征提供了一種更直觀的方式。

1 結(jié)合貝葉斯壓縮感知的HMM

Φiwt)TRi(Zt-Φiwt))]

(1)

式中：Ri是一個狀態(tài)依賴精度矩陣，wt是先驗值N(0,Ai-1)中的一個感知權(quán)值，λi={Ai,Φi,Ri}是狀態(tài)參數(shù)。通過整合感知權(quán)值wt，得到序列特征Z的邊界似然，公式如下：

2 基于BDBS-HMM的手勢識別系統(tǒng)

2.1 圖像預(yù)處理和特征提取

該系統(tǒng)使用深度傳感器Microsoft Kinect獲取一系列包含幾何信息的深度圖像。然后，利用骨架信息對手部進行跟蹤，通過深度閾值可以很容易地將背景分離出來[13]。根據(jù)手部的位置裁剪深度圖像，并將大小調(diào)整為50×50像素，然后對深度圖像進行標準化處理。為了細化圖像紋理，通過直方圖均衡化來提高圖像對比度，同時，采用中值濾波的方法對每個圖像進行降噪[14]，在本文中，使用的是5×5中值濾波器。

2.2 基于BS-HMM的巴氏距離

BS-HMM對一系列的數(shù)據(jù)點進行建模，為了得到序列分布模型，本文提出了BDBS-HMM，將巴氏距離引入到了BS-HMM中，巴氏距離DB用來測量概率分布的差異，其定義公式如下：

(3)

p(μl,∑l|wl,λi)∝

(4)

每個觀測分布hl都是由BDBS-HMM參數(shù)λ={πi,aij,Ai,Φi,Ri}生成。

E{logp(H,S|λ)|H,λold}=∑Sp(S|H,λold)logp(H,S|λ)

(5)

式中：λold是當前參數(shù)值，第二項主要是為了式(6)的計算。

(6)

3 實驗過程和分析

3.1 數(shù)據(jù)庫與評價標準

通過識別手勢行為動作來對所提出方法的有效性進行評價，F(xiàn)-measures(F值)來評估識別效果，評價標準包括準確率(Precision)、召回率(Recall)和F1分數(shù)(F1 Score)[15]。本次實驗是在兩個數(shù)據(jù)庫上進行，數(shù)據(jù)庫的原深度視頻信息都是通過微軟Kinect設(shè)備捕捉。第一個是MSRGesture3D數(shù)據(jù)庫，包含了12個動態(tài)美國手語手勢，共336個視頻，每個視頻幀數(shù)在30～60之間[16]，圖1(a)是一個MSRGesture3D數(shù)據(jù)庫的手勢深度圖像示例。第二個數(shù)據(jù)庫包含了在實際環(huán)境條件下的自記錄數(shù)據(jù)。本文的數(shù)據(jù)庫共有100個視頻和上、下、左、右、旋轉(zhuǎn)、禁止、停止、來、縮放和確定等10類手勢，每個視頻的幀數(shù)為60。圖1(b)是本文數(shù)據(jù)庫的手勢深度圖像示例，由于MSRGesture3D中的大多數(shù)手勢視頻都是經(jīng)過分割處理的，所以只顯示手腕以上部分，但是，本文數(shù)據(jù)庫中的視頻并沒有被很好地分割，因此需要使用手勢定位來對數(shù)據(jù)庫進行預(yù)處理。在實驗過程中，一半文件用于手勢訓練，另一半文件用于手勢測試。

(a)

(b)圖1 MSRGesture3D數(shù)據(jù)庫和本文數(shù)據(jù)庫手勢深度圖

3.2 相關(guān)實驗設(shè)置

為了證實提出的BDBS-HMM的效率，本文選擇使用標準HMM作為參照，由于HMM通常會導致模型過度擬合，所以選擇使用BS-HMM作為另一個參照。本研究共進行了兩個實驗，實驗一研究了HMM、BS-HMM、和BDBS-HMM在不同混合分量下的識別效果。實驗二檢測了訓練過程中BS-HMM和BDBS-HMM基向量的相似性，同時也研究了主動相關(guān)決策(ARD)參數(shù)。在這兩個實驗中，對HOG和HON4D兩個特征集也進行了研究。為了公平比較，HMM、BS-HMM和BDBS-HMM都使用相同的特征集。通過64分量標準HMM初始化BS-HMM和BDBS-HMM的基向量，每個實驗隨機劃分進行20次得出平均結(jié)果。

3.3 結(jié)果與分析

首先，將HMM、BS-HMM和BDBS-HMM分為兩個隱狀態(tài)，每個狀態(tài)下，混合分量設(shè)置為2個、4個、8個和16個，表1和表2分別表示使用MSRGesture3D數(shù)據(jù)集和本文的數(shù)據(jù)集獲得的實驗結(jié)果。實驗結(jié)果表明，在大多數(shù)情況下，本文提出的BDBS-HMM效果要比HMM和BS-HMM要好。在這里，BS- HMM和BDBS-HMM都使用64分量HMM初始化。

表1 使用MSRGesture3D數(shù)據(jù)庫手勢識別率 %

表2 使用本文數(shù)據(jù)庫手勢識別率 %

接下來，對本文提出的BDBS-HMM和BS-HMM進行更詳細的比較。理論上講，混合分量中的基向量集在訓練學習過程中會更加獨立，以訓練過程中的前五次迭代為例，圖2為余弦相似度和ARD參數(shù)與迭代次數(shù)關(guān)系圖。ARD的值表示感知權(quán)值的精度，BS-HMM與BDBS-HMM二者算法的比較驗證了它們的收斂速度是相似的。表3使用了MSRGesture3D的數(shù)據(jù)庫，比較了BS-HMM和BDBS-HMM的平均F值，實驗結(jié)果表明，本文提出的BDBS-HMM要優(yōu)于BS-HMM。

表3 BS-HMM與BDBS-HMM的Precision、Recall和F1 Score比較

(a) 使用BS-HMM得到的結(jié)果

(b) 本文所提出的BDBS-HMM得到的結(jié)果圖2 余弦相似度和ARD參數(shù)與迭代次數(shù)關(guān)系圖

4 結(jié) 語

本文提出了一種基于深度信息的手勢識別系統(tǒng)，該系統(tǒng)的主要創(chuàng)新之處在于其較好的處理概率特征的能力。為了處理序列分布形式特征，將巴氏距離引入到BS-HMM中，通過極大似然法對提出的BDBS-HMM參數(shù)進行預(yù)估。同時也考慮到了模型正規(guī)化，使用EM算法推導出參數(shù)的遞歸解，并將所提出的BDBS-HMM與使用標準HMM和BS-HMM的手勢識別效果進行比較，實驗結(jié)果表明了在使用MSRGesture3D數(shù)據(jù)庫的情況下所提出的BDBS-HMM的優(yōu)越性。