王文會 陳 香 陽 平 李 云 楊基海
(中國科學技術大學電子科學與技術系,合肥 230027)
手語識別研究的目的,是使計算機能夠正確理解手語,并將手語轉換成容易理解的語音或者文本信息,以增進聾啞人與健聽人之間的無障礙交流[1]。同時,手語手勢識別研究有助于促進智能人機交互技術、虛擬現(xiàn)實和機器學習等研究的發(fā)展[2]。
根據輸入設備的不同,手語識別主要分為基于穿戴式輸入設備和基于計算機視覺兩個方面?;诖┐魇捷斎朐O備的手語識別使用的輸入設備,主要有數據手套、加速計和表面肌電傳感器等[3-4,7]。由于手勢運動伴隨著肌肉活動,表面肌電信號(surface electromyography,SEMG)可用于檢測手勢運動引起的肌肉活動狀態(tài)變化。如Du利用7導表面肌電對11個手勢采用基于灰度相關分析的方法,獲得了95.9%的識別率[3]。Rehm采用HMM技術,借助1個三軸加速計對8個手勢動作達到了97.2%的識別率[4]?;谟嬎銠C視覺的手語識別,通過各種成像設備,實現(xiàn)對手勢動作的捕獲。根據采用的成像設備個數不同,一般可分為單目視覺和立體視覺。單目視覺方面,Nandy采用基于圖像的二維方向直方圖作為手語特征,針對22個印度手語詞,用K-近鄰分類器得到了100%的識別率[5]。在立體視覺方面,Vogler等利用1個位置跟蹤器和3個互相垂直的攝像機,針對由53個手語詞組成的486個句子,在上下文相關的情況下得到了89.91%的識別率[6]。
不同傳感器在捕獲手勢信息方面有著獨特的優(yōu)勢,但同時也存在各自的缺點。例如:計算機視覺可提供豐富的朝向、手形手姿、運動以及手與身體相對位置信息,但易受到攝像機視角和背景光照等環(huán)境因素影響;SEMG能夠反映手的形態(tài)、關節(jié)的伸屈狀態(tài)和伸屈強度,對精細手指動作有著獨特優(yōu)勢,但由于是一種微弱的電生理信號,對傳感器安放位置敏感,可識別手勢動作種類有限[3];加速計(accelerometer,ACC)可檢測手勢的大尺度運動信息,但無法檢測小幅度運動手勢和靜態(tài)手勢。當前很多有關手語手勢的識別研究是采用單一種類的傳感器,可檢測和識別的手語詞匯量和準確性具有一定的局限性。
為有效利用不同類型傳感器在捕獲手勢動作信息上的優(yōu)勢,多傳感器檢測和融合技術逐漸被引入到手語識別中。Kosmidou綜合5導SEMG與三維ACC信號,采用樣本熵特征,對60個孤立的希臘手語詞取得了高達99%的識別率[7]。鄒偉等利用數據手套、視覺和肘部彎曲傳感器作為輸入設備,對中國手語中的32個單手靜態(tài)詞匯進行了識別研究[8]。Zhang把4導表面肌電與1個加速計作為輸入設備,對18個自定義的手勢取得了91.7%的實時識別率,并將其應用于虛擬場景中魔方游戲的實時控制[9]。以上研究成果表明,多傳感器信息檢測和融合技術在手語識別中具有很大的潛力。
本研究利用表面肌電、加速計和網絡攝像頭作為輸入設備,充分結合這3種低成本、便攜式傳感器在捕獲手語信息方面的優(yōu)勢,提出了一種基于多傳感器信息檢測和融合的中國手語手勢識別方法。在有效手語動作的時序分割環(huán)節(jié),利用SEMG的幅值變化信息,并結合移動窗技術和閾值檢測方法來獲得3種傳感器的同步活動段信號。在分類融合環(huán)節(jié),采用一種多級分類融合策略,在決策級對不同角度的手語動作信息進行融合:首先,利用SEMG在有無動作情況下的幅值變化信息,將手語詞區(qū)分為單手詞和雙手詞;然后,根據獲得的手語圖像序列中膚色連通區(qū)域的個數不同,將雙手詞細分為無遮擋詞和有遮擋詞;最后,在決策融合中利用Sugeno模糊積分,將表面肌電信號、加速計信號和視覺信號進行融合,得出最終判決結果。實驗結果表明,該方法可有效地融合不同傳感器提供的信息,實現(xiàn)優(yōu)勢互補,獲得較高的識別率。
圖1所示為基于多傳感器信息檢測和融合的中國手語分類識別實現(xiàn)框圖。
圖1 基于多傳感器信息檢測和融合的中國手語識別整體框圖Fig.1 The flow diagram of multi-sensor information detection and fusion method
為得到每個傳感器對于手語動作的同步描述,需要從肌電、加速計和視覺傳感器采集的連續(xù)手勢輸入信號中分割出動作開始到結束的有效手勢活動段。對于視頻和加速度信號而言,如何從連續(xù)信號中自動分割出含有有效手勢動作的活動段信號,還沒有比較完善的算法。由于SEMG直接體現(xiàn)了肌肉的活動強度,其幅值變化可用于判斷手勢是否在執(zhí)行狀態(tài),且不受手臂其他無意識動作的影響。因此,利用SEMG的幅值變化信息來實時提取活動段,具體實現(xiàn)過程如下:
先按式(1)計算右手的S導SEMG在t時刻的平均絕對值,再按式(2)計算移動窗內64點的平均絕對值的平均平方和,有
當肌電信號加窗平均幅值SEMGMA(t)大于開始閾值fH時,表示手語動作開始執(zhí)行,此時開始同步保存3種傳感器信號;當肌電信號的加窗平均幅值小于結束閾值fL時,表示手語動作結束,此時停止保存這3種傳感器信號。fL<fH是避免無意識的抖動被錯認為有效手勢,而且可以防止手勢執(zhí)行過程中信號幀斷裂。
對于ACC信號,將降采樣的原始信號作為特征,就可以得到比較好的識別效果[4]。因此,先將ACC活動段信號降采樣為32個點,然后進行歸一化調整,對于三軸加速度信號,形成一個3×32的時間序列作為特征向量。
SEMG信號常采用多導電極進行采集。由于不同手勢所涉及的肌肉群及其用力強度均不一樣,導致各導的SEMG信號幅度也有所不同,信號幅值的平均絕對值MAV可以作為區(qū)分不同手語的有效特征。同時,SEMG是肌肉收縮時產生的隨機非平穩(wěn)的生物電信號,而AR模型系數是在SEMG分類識別方面效果比較好的頻域特征。因此,本研究采用MAV和四階AR模型的前3個系數來作為每導SEMG信號的特征參數[9]。將各導SEMG特征串聯(lián),作為手語詞的特征。
手勢圖像特征提取一般是基于輪廓信息或手勢分割后的二值化圖像,本研究采用幾何矩[10]和方向直方圖[5]提取視覺特征。因在打手語過程中存在一些不確定因素,比如手勢與攝像頭之間相對距離、角度的不惟一會導致不同人或者同一個人在不同時刻手語獲得的圖像有偏轉或移動等缺陷。將幾何矩用于提取不同手語的特征,可以做到不隨手勢圖像的平移、旋轉和大小變化而變化,具有良好的適應性和穩(wěn)定性。有些手語詞的手姿表達基本一樣,區(qū)別僅僅在于手指的指向不同,幾何矩對于這些詞不能有效區(qū)分。而方向直方圖考慮的是手勢的邊緣輪廓信息,可以提供手指的朝向信息。因此,采用幾何矩和方向直方圖作為手勢圖像特征,既利用了手勢的整體形狀信息,又保留了輪廓細節(jié)信息。常用的幾何矩有7個特征分量[10],實驗表明使用前4個不變矩特征量的效果比7個都用效果要好,所以使用前4個分量作為一幀手勢圖像的幾何矩特征。幾何矩特征向量中各特征分量的數量級差異比較大,實驗中分別取100、101、102、103作為分量調節(jié)系數。將各幀幾何矩組合在一起,形成一個手語詞的特征;將邊界方向量化成36柄,形成方向直方圖特征向量。
圖2為本研究采用的基于多傳感器信息檢測和融合的手語分類策略。為有效融合多傳感器信息,該分類策略充分利用不同傳感器可從不同側面捕獲手勢動作信息的特點,同時考慮手語詞的整體信息和細節(jié)信息,采用由單雙手詞劃分、有遮擋和無遮擋雙手詞劃分、模糊積分融合構成的多級分類方法,以提高中等詞匯量手語的識別率。
1.3.1 基于EMG的單雙手詞區(qū)分
圖2 基于多傳感器信息檢測和融合的手語多級分類策略Fig.2 Multi-level classification strategy based on multi-sensor information detection and fusion
中國手語詞匯共有5 600余個單詞手勢動作[1],可分為單手詞和雙手詞兩大類。單手詞在執(zhí)行時一般只需要使用右手(或稱主手)表達手勢所蘊涵的信息,雙手詞則需要左右手相互配合。單雙手詞的劃分采用SEMG信號來完成:SEMG的幅度可以直接反映肌肉的活動強度,在手語動作執(zhí)行期間的信號幅度較大,詞與詞之間的停頓時期的信號幅度較小,故可依據左手的SEMG幅度來判斷左手有無動作(設定閾值),從而實現(xiàn)單雙手詞的劃分。
1.3.2 基于視覺信號的有遮擋和無遮擋雙手詞區(qū)分
雙手詞又可分為有遮擋和無遮擋兩種。雙手有遮擋詞的主要特點是:在整個動作執(zhí)行過程中,左右雙手有接觸,或者由攝像頭獲得的圖像幀序列中左右手有部分重疊。如圖3所示,手語詞“元旦”為無遮擋詞,而“信”為有遮擋詞。在對雙手詞的手勢幀圖像(IMG)進行背景去除和膚色檢測后,可以發(fā)現(xiàn)手部連通區(qū)域為1個或者2個。因此,依據視覺上手部連通區(qū)域個數的不同,對雙手詞進行雙手有遮擋和雙手無遮擋的劃分。
圖3 遮擋和無遮擋雙手詞舉例Fig.3 Samples of double-hand sign word with and without occlusion
1.3.3 基于模糊積分的決策級融合
鑒于手語詞在表達的過程中存在著大量的不確定因素,而模糊理論中的模糊積分在處理不確定因素方面具有一定的優(yōu)越性,本研究采用Sugeno模糊積分綜合SEMG、ACC、方向直方圖和幾何矩4種特征通過相應的分類器所提供的局部決策,消除它們之間的數據冗余和矛盾,做出最終識別判決。
在3類傳感器信號的特征描述中,有些特征是一維向量(EMG和方向直方圖),而有些特征是連續(xù)的觀察值時間序列(ACC,幾何矩圖像幀序列),所以需用不同結構的分類器(簡稱異構分類器)進行分類處理。根據各傳感器信號特征的特點,采用隱馬爾科夫模型(HMM)[9]和最近鄰分類器(NN)[11]來分別處理時間序列和一維向量。HMM是一種統(tǒng)計學模型,具有較強的時序建模能力。受到HMM在連續(xù)語音識別領域有著成功應用的啟發(fā),眾多研究者將HMM引入手語識別領域,同樣取得了比較好的效果[6,9]??紤]到手語的運動特點,采用HMM模型為直觀left-right形式的Bakis模型[9],設定HMM有5個狀態(tài)3個混合項。不管是HMM還是NN,待識別詞的特征輸入后,都會給出待識別詞與詞庫中各詞的似然概率或距離測度,后續(xù)處理中將這些數據歸一化后當做模糊隸屬度,以表明待識別詞與詞庫中某個詞的相似程度。
模糊積分是定義在模糊測度上的非線性函數,它運用模糊集合的知識,用模糊測度取代了加權值,從多個分類器的結果中找出最大一致性的結果。模糊測度的類型有可能性測度、信任度和λ-模糊測度gλ等[12],本研究在手語識別中用的是λ-模糊測度gλ。
設X=(x1,x2,…,xn)是一有限集合,p(X)是X的冪集,定義在p(X)上的集合函數g:p(X)→[0,1]稱為模糊測度,滿足條件g(φ)=0,g(X)=1;?A,B∈p(X)。若A?B,則g(A)≤g(B)。
gλ模糊測度除滿足上述兩個基本條件外,同時滿足下面的附加條件,即
式中,參數λ為實數,λ>-1且λ≠0,存在惟一的λ滿足
設a為待識別的對象,C={C1,C2,…,Cm}表示m個類別集合,A=(s1,s2,…,sN)是N個分類器集合。設fj(si)表示分類器i中手勢a屬于類別Cj的支持度或者稱之為置信度,即待識別詞a與手勢詞庫中第j個HMM或NN模型之間的似然概率。設有限集合Ai=(s1,s2,…,si),i=1,2,…,N。若fj(si)按降序排列,即fj(s1)≥fj(s2)≥…≥fj(sN),則gλ可由單點上的模糊測度(即模糊密度)gi=g({si})依據下列公式遞推求得
在手語識別中,可將Sugeno模糊積分簡化為
然后,使用最大隸屬準則,得到對象a的隸屬類別。
在基于模糊積分的分類器融合中,模糊測度對最終輸出的融合結果有著很大的影響。計算模糊測度時,需要先確定模糊密度。模糊密度可以理解為信息源對于整個決策的重要性,不合適的模糊密度可能使得融合精度非常不穩(wěn)定,有時甚至會使融合精度低于單分類器的分類率。在多傳感器手語識別中,各個傳感器所提供的信息是不同的,各個信息源對手語識別的重要性也不同。為避開單分類器所能達到的性能限制,有效利用各個子分類器的互補性,定義每個分類器對不同手勢類別的分類率為模糊密度gi,然后由gi遞推,得到模糊測度gλ。
加權平均、D-S證據理論和模糊積分是比較常用的決策融合方法[12-13]。為驗證所提出方法的有效性,同時開展了基于前2種決策融合方法的手勢識別實驗,并對3種方法得到的結果進行了對比分析。加權平均是一種簡單直觀的方法,它將各個分類器提供的匹配結果進行加權平均后作為融合結果。D-S證據理論將每個傳感器的每一次測量值作為一條證據,不同特征經過分類器后得到匹配結果,以此作為該證據對各個手語詞的基本概率賦值,然后利用基于Dempster的正交規(guī)則對基本概率賦值進行組合。在多個證據合成時,可以兩兩遞歸組合來實現(xiàn)融合[13]。
基于實驗需要,構建了一個基于OpenCV開放源代碼和多線程技術的3類傳感器數據采集平臺。8個自制的表面肌電電極、2個自制的三軸加速計和1個普通的USB接口的網絡攝像頭,用于實時采集手勢動作信號。圖4為表面肌電電極和加速計安放示意圖,左右手的前臂上分別安置4個表面肌電電極和一個加速計電極,其中4個肌電電極的第一導安放于上肢前臂靠近腕關節(jié)的拇伸肌和食指固有肌對應位置處,其他三導分別安放于靠近肘關節(jié)的伸指總肌、尺側腕伸屈肌等處,加速計和參考電極安放于腕關節(jié)附近。為了方便手語信號采集,用腕帶將電極捆綁在手臂上,肌電和加速計的信號采樣率設為1kHz。視頻信號采用單目正面視覺獲取,在實驗過程中,將網絡攝像頭正對著受試者。視頻采樣幀率為30幀/s,每幀圖片的空間分辨率為640像素×480像素,采樣環(huán)境為常規(guī)背景、普通光照下的實驗室環(huán)境。
圖4 數據采集系統(tǒng)中表面肌電傳感器和加速計安置Fig.4 SEMG and ACC sensor placement
本研究以從文獻[1]中選取201個高頻手語詞作為識別對象,包括61個單手詞、72個雙手有遮擋詞、68個雙手無遮擋詞。實驗數據共有9 648個樣本,由4位年齡在20~25歲之間的健康受試者分別對每個手語詞采集12遍構成。在實驗中,受試者被要求站在距離攝像頭1m左右的地方執(zhí)行動作,做單手詞時用右手執(zhí)行,左手自然下垂在身側。每個手語動作中選取8個樣本用作訓練樣本,剩下的4個樣本作為測試樣本。
為了驗證基于多傳感器信息檢測與融合的方法對于中國手語識別的有效性,對7種不同的傳感器組合情況進行了數據分析處理,包括單用肌電信息(EMG-only)、單用加速度信息(ACC-only)、單用視覺信息(IMG-only)、融合肌電和加速度信息(EMG+ACC)、融合肌電和視覺信息(EMG+IMG)、融合加速度和視覺信息(ACC+IMG)、融合肌電、加速度和視覺信息(Three-sensors)等。
在每種組合情況下,手語識別過程都會充分利用所涉及的傳感器的優(yōu)勢。例如第一種情況EMG-only,先按照前面講到的多級分類策略中的第一級,利用EMG的幅值特性,將單雙手詞先區(qū)分開,然后用EMG的特征分別對單雙手詞進行識別。對于EMG+IMG,則先利用EMG和視覺信號特點,將單手詞、雙手無遮擋和雙手有遮擋區(qū)分開,然后利用模糊積分對EMG和視覺特征進行決策融合。
表1以平均識別率和標準差形式,給出了不同傳感器組合情況下各受試者的手語識別結果。單傳感器的識別率為79.10%~96.89%,傳感器兩兩組合情況下的識別率為95.15%~97.64%,3個傳感器組合情況下的識別率高達99.13%~99.75%。這些結果表明,多傳感器融合可使手語詞的識別率得到一定的提高。同時,對比單傳感器和多傳感器情況下的標準差可發(fā)現(xiàn),兩兩組合情況下的標準差小于單傳感器情況,3種傳感器組合的標準差小于兩種傳感器組合的標準差。此結果說明,多傳感器融合可顯著消除不同手勢動作模式的可分性差異。以第二個受試者的具體識別結果為例,在EMG-only情況下,單手詞“墻壁”有兩個錯分成了單手詞“玻璃”,雙手有遮擋詞“扶”有3個錯分成了雙手無遮擋詞“填”,因為這些詞執(zhí)行時,肌肉收縮狀態(tài)差不多或完全相同,所以出現(xiàn)錯誤分類。但是,這些詞空間軌跡和手的朝向有很大不同,采用加速計或視頻信息即能正確識別。在單用ACC的情況下,如單手詞“你”有兩個錯分成了“謝謝”,這兩個單手詞都是靜態(tài)詞,加速計提供的信息類同,區(qū)別是一個伸食指,一個伸大拇指,利用EMG或視覺信息則可將其區(qū)分開。雙手有遮擋詞“椅子”有兩個錯,識別成了雙手無遮擋詞“對稱”,這在多級融合策略中可以很容易通過圖像連通區(qū)域的個數不同而將其區(qū)分。
表1 不同傳感器組合情況下的手語識別實驗結果Tab.1 Classification results of different sensor combinations
表2給出了基于模糊積分、加權平均和D-S證據理論的決策融合分類對比結果。其中標號A表示模糊積分,B為加權平均,C為D-S證據理論。從表2中可得出:3種傳感器組合的識別率基本上都大于兩種傳感器組合,前者的標準差小于后者的標準差。而且,在3種傳感器融合的情況下,基于模糊積分的識別率最高,基本上都在99%以上,標準差也是最小。除了ACC+IMG這種組合情況外,模糊積分與D-S證據理論的識別率幾乎都大于加權平均,說明了模糊積分和D-S證據理論能更好地利用多個分類器之間所具有的互補性,產生精度更高的結果,降低了分類的不確定性。然而,D-S證據理論在多個分類器融合時需要兩兩進行遞歸組合,并且涉及乘積操作,計算復雜度隨著測量維數的增加以指數形式遞增,容易出現(xiàn)“維數災難”[13]。而模糊積分考慮到了子分類器的可靠性問題,計算簡單,可擴展性和可移植性比較好。對于ACC+IMG出現(xiàn)的情況,可通過表3來解釋。在ACC+IMG組合的情況下,首先利用視覺信號的特性,將手語詞分為具有單連通域與雙連通域的兩個子集,然后分別用相關特征獲得子分類器的局部決策。由于ACC側重于描述大尺度手勢動作的空間軌跡,IMG側重于手的形狀輪廓和朝向,ACC與IMG之間存在互補信息較多,所以加權平均也能夠得到比較好的融合結果。在EMG+IMG組合情況下,加權平均性能比另外兩種融合方法差很多,具體可見表4。由于EMG描述的是手勢動作的用力方式,體現(xiàn)的是手勢形態(tài)和手腕精細動作,它與IMG都是提供對手語手姿方面的信息,兩者存在較多冗余;而基于EMG與IMG的子分類器之間的局部決策存在沖突和矛盾的地方,是非可加的,D-S證據理論與模糊積分可從多個分類器的一致和相互沖突的結果中找出最大一致性的結果,因此得到了遠高于子分類器的識別率。
表2 采用不同融合方法的手語識別實驗結果對比Tab.2 Comparison of classification results with different fusion methods
表3 Subject2在ACC+IMG組合情況下的識別率Tab.3 Recognition rates of subject2 with condition ACC+IMG
表4 Subject3在EMG+IMG組合情況下的識別率Tab.4 Recognition rates of subject3 with condition EMG+IMG
手語詞主要是通過手形變化和空間運動軌跡,以及手同身體之間的相對位置關系表達相關信息。無論是手形變化還是手部運動,均在執(zhí)行過程中存在一些不確定因素。采用肌電、加速度和視覺3種傳感器作為手勢輸入設備,提出了一種基于多傳感器信息檢測和融合的中國手語分類識別方法。該方法采用的多級分類策略考慮到了各個傳感器的優(yōu)勢和手語詞匯的模糊特性,用模糊積分將來自不同分類器的識別信息進行有機結合,用以提高多傳感器融合系統(tǒng)的分類精確率,改善系統(tǒng)的穩(wěn)健性。對于201個中國手語詞匯,3種傳感器融合的識別率均在99%以上,此實驗結果證實了多傳感器融合在手語識別中的有效性和可擴展性。同時,對采用不同決策級融合方法進行的對比實驗,結果證實了基于Sugeno模糊積分的融合方法的有效性和實用性。
[1]中國殘疾人聯(lián)合會教育就業(yè)部,中國聾人協(xié)會.中國手語[M].北京:華夏出版社,2003.5-200.
[2]Von AU,Zieren J,Canzler U,et al.Recent developments in visual sign language recognition[J].Universal Access in the Information Society,2008,6(4):323-362.
[3]Du Yichun,Lin Chiahung,Shyu Liangyu,et al.Portable hand motion classifer for multi-channel surface electromyography recognition using grey relational analysis[J].Expert Systems with Applications,2010,37:4283-4291.
[4]Rehm M,Bee N,André E.Wave like an Egyptian:accelerometer based gesture recognition for culture specific interactions[A].In:Proceedings of the 22nd British HCI Culture,Creativity,Interaction[C].Swinton:British Computer Society,2008.13-22.
[5]Nandy A,Prasad JS,Mondal S,et al.Recognition of isolated indian sign language gesture in real time[A].International Conference on Recent Trends in Business Administration and Information Processing[C].Germany:Springer Verlag,2010.102-107.
[6]Vogler C,Metaxas D.ASL recognition based on a coupling between HMMs and 3D motion analysis[A].In:Proceedings of the Sixth International Conference on Computer Vision[C].Los Alamitos:IEEE,1998.363-369.
[7]Kosmidou VE,Hadjileontiadis LJ.Sign language recognition using intrinsic mode sample entropy on sEMG and accelerometer data[J].IEEE Transactions on Biomedical Engineering,2009,56(12):2879-2890.
[8]鄒偉,杜清秀,原魁,等.一種基于證據理論的中國手語單手靜態(tài)詞識別方法[J].系統(tǒng)仿真學報,2008,20(22):6142-6150.
[9]Zhang Xu,Chen Xiang,Wang Wenhui,et al.Hand gesture recognition and virtual game control based on 3D accelerometer and EMG sensors[A].In:Proceedings of the 13th International Conference on Intelligent User Interfaces[C].New York:Association for Computing Machinery,2009.401-405.
[10]Hu MK.Visual pattern recognition by moment invariants[J].IRE Transactions on Information Theory,1962,8:179-187.
[11]Duda RO,Hart PE,Stork DG,著.李宏東,姚天翔,譯.模式分類[M].(第2版).北京:機械工業(yè)出版社,2003.146-151.
[12]Verikas A,Lipnickas A,Malmqvist K,et al.Soft combination of neural classifiers:A comparative study[J].Pattern Recognition Letters,1999,20(4):429-444.
[13]Basir O,Yuan XH.Engine fault diagnosis based on multi-sensor information fusion using Dempster-Shafer evidence theory[J].Information Fusion,2007,8:379-386.