馬春華 邵俊倩 秦 兵
(綏化學院 黑龍江綏化 152061)
作為人口大國的我國,聾啞學生不在少數,聽障學生的教育更是備受矚目,近些年得到國家及全社會的高度重視。黑龍江省擁有聽障基礎教育加高等教育的完整聽障生教育體系,為聽障生高質量的課堂教學提供了有力保障。手語是聽障生課堂教學中的主要交流手段,但以健聽人為主的手語識別越來越不能滿足聽障生課堂教學的需求。究其原因,主要有兩個方面:(1)不同課程都存在大量的特有非通用手語,且存在變種表達,不同的聽障生對同一復雜抽象概念的表達存在很大差異,這加大了健聽人對手語識別的難度。首先是詞匯方面的原因。因為現有手語構成元素主要來自視覺化元素,包含少量的非視覺和抽象概念元素,其對抽象概念的表述還無法像自然語言那樣豐富有力。當涉及抽象概念的課程教學時,標準手語的現有詞匯有時也不能充分自如地表達這些復雜的抽象概念,甚至這些專業(yè)課中涉及的很多概念在現有《中國手語》手冊和專有詞匯手語手冊里根本沒有對應手語。然后是手語詞匯組合方面的原因。因為手語表達比自然發(fā)音要慢很多,當表達一個句子時,聽障生會自然的省略一些非關鍵詞以加快速度,同時會有一些詞語順序及組合規(guī)則的變形。不同的聽障生對這種詞語組合規(guī)則存在強烈的個性化特征,所以課堂教學中存在大量的非通用手語表達,這進一步加大了健聽人對手語識別的難度。(2)不同地域聽障生的手語表達習慣差別很大,加之不同課程都有自己特定概念的手語,這導致教師和學生需要記憶并練習大量的非標準手語,進一步導致健聽人手語識別的困難。鑒于健聽人手語識別存在的困境,部分研究者很早就旨在通過技術手段對手語實現機器識別,如,數據手套、Kinect體感攝像機等,但因為其中的軟件對手語的識別準確率太低,從而無法大規(guī)模應用在聽障生課堂教學中。
近年來,基于神經網絡(Neural Network,NN)的深度學習在很多領域都實現了技術突破,其中,圖深度學習的發(fā)展尤其引人注目,有望使手語識別精度大幅度提高從而達到實用水平。目前,已有部分研究者進行了基于深度學習技術的手語識別研究,但鑒于技術難度,還遠未達到實用化水平。下面將對國內外手語識別的純技術研究做出梳理,其中重點關注基于深度學習的手語識別技術。
有效的手語識別(Sign Language Recognition,SLR)系統(tǒng)可以通過手勢識別促進與聽力障礙者之間的交流。與區(qū)域口語相似,不同地區(qū)也發(fā)展了各自的手勢表征(如美國手語(ASL)、德國手語(GSL)、印度手語(ISL)等)。中國手語(Chinese Sign Language,CSL)是我國聽力障礙人群的主要交際手段,它可以縮短聽障者與健康人之間的距離,幫助他們更好地學習并融入社會。由于手部形狀和動作的變化為識別過程增加了許多難度與挑戰(zhàn),使得SLR成為手語應用研究的重點之一。傳統(tǒng)用于SLR的方法主要有:模板匹配方法(template matching)、隱馬爾可夫模型(Hidden Markov Model,HMM)及NN等方法。其中,模板匹配方法是最簡單的手勢識別方法,該方法的優(yōu)點是易于模板的建立與改進,且能有效地識別,對于小詞匯表孤立詞識別系統(tǒng)十分適用。HMM是概率統(tǒng)計方法中最具有代表性的方法,與HMM結合最為緊密的算法當屬Viterbi算法。NN方法具有很強的分類特性及抗干擾特性,但由于其處理時間序列的能力不強,目前廣泛用于靜態(tài)手勢的識別。
傳統(tǒng)的SLR方法都有其各自的局限性,隨著科學技術不斷地發(fā)展與進步,給一些專家學者提供了新的思路。考慮將傳統(tǒng)方法相融合以彌補各自的不足,如將HMM與動態(tài)時間規(guī)整算法(Dynamic Time Warping,DTW)相結合[1],HMM與支持向量機(Support Vector Machine,SVM)相結合[2]、HMM與NN相結合[3-4]及模糊邏輯與NN相結合[5-6]的手語識別技術。
(一)HMM與DTW相結合的手語識別技術。DTW算法是SLR的經典算法,其最顯著的優(yōu)點是識別精度高,系統(tǒng)的復雜度低。該算法的缺點是需要對大量路徑及其中的所有節(jié)點進行匹配計算,導致計算量太大,所以需要通過全局路徑約束和端點限制方法對其改進,使之滿足SLR的需要。為提高大詞匯量SLR速度,姚等人[1]提出了一種將DTW和HMM相結合的多層次大詞匯量SLR方法。該方法的思想是先進行全局粗略搜索,將要識別的手勢詞歸入某一組范圍較小的詞表中,然后通過更加精確的HMM局部搜索將詞識別出來。實驗結果表明,相對于僅用HMM單層識別而言,識別速度和識別準確率都有所提高。
(二)HMM與SVM相結合的手語識別技術。SVM是一種較為成功的統(tǒng)計學習方法,在模式識別領域尤其是圖像處理領域應用較為廣泛。針對HMM與SVM各自的優(yōu)勢,趙[2]提出了基于HMM的CSL方法,通過應用Sugeno模糊積分,計算機圖形學識別的圖像處理技術,采用直方圖的特征可以將手型的區(qū)域從背景中分離出來,進一步通過降維處理,將得到的手部圖像去除手部以外的區(qū)域,從而得到手的輪廓,使得不攜帶其他相關手套工具,達到靜態(tài)簡單手語識別,其正確率達到了85%以上,證明這種方法在CSL識別上的可行性。
(三)HMM與NN相結合的手語識別技術。一般結構下的HMM方法能夠有效地處理手勢信號的時間特性,因而在SLR領域一直占有主導地位。然而HMM拓撲結構的一般性致使該模型在分析手語信號時過于復雜,特別是對于連續(xù)的或半連續(xù)的HMM,需要計算大量的狀態(tài)概率密度和估計大量的參數,因而一般SLR系統(tǒng)均采用離散的HMM。對于標準的HMM,它的一個主要局限在于要求對應于每個狀態(tài)手勢段的手勢向量是獨立的,并且缺少分類特性。因此,早在1999年,吳等人[3]就給出了NN與HMM相結合的混合方法作為手語的訓練識別方法,以增加識別方法的分類特性和減少模型的估計參數的個數。其實驗結果表明將NNHMM混合方法應用于有18個傳感器的Cyber Glove型號數據手套的CSL識別系統(tǒng)中是有效和可行的。2018年,M.Suresh Anand等人[4]開發(fā)了ISL識別系統(tǒng)。該系統(tǒng)對輸入圖像進行預處理后,采用離散小波變換(DWT)提取手勢特征。使用HMM和ANN進行分類,該系統(tǒng)提高了識別的準確性。
(四)模糊邏輯與NN相結合的手語識別技術?,F在的一些識別方法是將傳統(tǒng)的模型與NN模型進行串聯或者嵌入,以同時利用兩類模型的優(yōu)勢。將模糊邏輯理論運用到手語識別技術當中,早在2003年,Zou等人利用數據手套CAS Glove作為輸入設備,提出了一種基于模糊神經網絡(FNN)的中國手語單手靜態(tài)詞匯的識別方法[5]。同年,Zou等人[6]又結合漢語手語中手勢的特點,采用人手的三維空間位置信息作為觀測向量,將模糊理論與HMM理論有機結合,提出了一種基于FSMM的CSL手勢識別方法。
經典的手語識別方法,由于信息冗余、人的手指遮擋、運動模糊、不同人的簽名風格多樣等,識別精度不夠高。為了克服傳統(tǒng)方法的缺點,國內外研究者投入了大量的經歷,致力于SLR新方法新技術的研究,近幾年涌現了大量的SLR新方法。深度學習技術的蓬勃發(fā)展為更準確和實時的SLR帶來了新的機會。目前出現的基于深度學習的手語識別技術主要包括基于卷積神經網絡(Convolutional Neural Network,CNN)、循環(huán)神經網絡(Recurrent Neural Network,RNN)、圖神經網絡(Graph Neural Network,GNN)及多種方法融合的手語識別技術。
(一)基于CNN的手語識別技術。CNN是深度學習的一種重要形式,CNN致力于處理具有相似網絡結構的數據,如時間序列和圖像數據。此外,CNN的自學習和自組織能力,在許多應用領域,特別是圖像分類和輔助臨床診斷,具有良好的應用前景。由于二維CNN模型善于提取圖像特征,根特大學手語團隊很早就提出了一個包含雙二維CNN的SLR系統(tǒng)來提取手部和上半身特征。但常用的二維CNN在處理連續(xù)視頻幀的時候會丟失在時間維度上的特征信息,因此降低了識別準確率。于是,Ji等人[7]針對該缺陷提出利用三維CNN網絡來進行視頻動作的識別,其核心思想是通過3D卷積操作,從時間維度和空間維度構建視頻特征,取得了良好的結果。目前,利用CNN進行SLR的方法仍然是國內外專家學者熱衷的行之有效的方法之一。
在國外,Pariwat等[8]開發(fā)了一個具有深度學習功能的多筆畫泰國SLR系統(tǒng)。該系統(tǒng)使用CNN進行學習特征和分類。Barbhuiya等人[9]將CNN應用于手語識別背景下靜態(tài)符號的魯棒建模。Rahaf等人[10]引入了一種基于區(qū)域的卷積神經網絡(R-CNN)阿拉伯SLR系統(tǒng),該系統(tǒng)能夠更快地定位和識別阿拉伯手語的字母表。Daniels等人[11]采用YOLO方法進行印尼手語識別,開發(fā)一種能夠實時使用只看一次(YOLO)處理視頻輸入的SLR系統(tǒng)。YOLO是一種基于CNN的目標檢測方法,具有準確、快速的特點。Marwa等人[12]提出了一種基于CNN作為分類算法的手勢識別系統(tǒng)的框架。通過將該模型與其他深度學習方法的識別準確性進行比較,驗證了該模型所提出框架的有效性超過了其他模型。
在我國,CNN在漢語手語分類中發(fā)揮著非常重要的作用。Lee等人[13]提出了一種新的雙輸出雙流CNN。它不僅結合了空間流網絡和運動流網絡,而且有效地緩解了雙流CNN的反向傳播問題,提高了其識別精度。趙等人[14]為了提高3D-CNN在進行動態(tài)手語識別任務時的準確率,參考Resnet50網絡提出了一種雙通道的時空特征提取網絡。該網絡包含一個高采樣頻率分支和一個低采樣頻率分支,分別關注圖像中的運動信息和語義信息,最終融合兩個分支提取到的特征完成分類識別。Gao等人[15]提出一種用于漢語手語分類的九層CNN。
(二)基于RNN的手語識別技術。SLR通常被表述為序列比對問題,其中連接主義時態(tài)分類(CTC)在構建視頻序列與句子級標簽之間的有效比對中起著重要作用。但是,如果輸出標簽序列比輸入視頻序列長,基于CTC的SLR方法往往會失效。由于RNN能夠對時間序列的長期上下文信息建模,因此適合于分析這種類型的集合。Gao等人[16]提出了一種新的基于RNN傳感器的SLR框架,即視覺層次到詞匯序列比對網絡(visual hierarchy to lexical sequence alignment network-H2SNet),在該框架中,設計了一個視覺層次轉錄網絡,在多個層次上捕捉符號視頻的空間外觀和時間運動線索。同時,利用詞匯預測網絡從輸出預測中提取有效的語境信息。RNN-Transducer用于學習序列視頻特征與句子級標簽之間的映射。大量實驗驗證了該方法相對于現有方法的有效性和優(yōu)越性。Avola等人[17]利用人手指骨形成的角度作為特征,對RNN進行訓練,識別的準確率達到96%以上。
(三)基于GNN的手語識別技術。面對結構復雜并且形狀不規(guī)則的圖數據時,傳統(tǒng)的CNN無法對其直接進行處理。GNN的誕生,很好地解決了直接對圖數據建模的問題。GNN的出現,使得圖數據可直接應用于學習過程,從而避免了由于數據預處理而丟失結構信息的問題。在驚嘆于CNN的強大性能之時,研究人員也開始考慮如何將卷積應用到GNN中。圖卷積神經網絡(GCN)研究在一定意義上彌補了傳統(tǒng)CNN的不足。受益于卷積濾波的高效性,圖卷積模型在多項圖數據相關任務上均取得了令人矚目的成績;同時,基于時空域圖卷積的NN模型[18-21]開始涌現。Meng等人[22]提出了一種基于GCN的多尺度雙手語識別網絡。給出了三種不同的注意機制:多尺度注意機制、時空注意機制和時間注意機制,以進一步提高其魯棒性和準確性。
(四)基于深度學習的混合手語識別技術。
1.CNN與SVM相結合的手語識別技術。Vanita等人[23]利用CNN和SVM對ASL進行識別,并計算了單層和雙層CNN的最優(yōu)濾波大小。第一階段從數據集中提取特征,并應用了多種預處理技術后,在訓練數據集上分別應用了4種不同核的SVM,以及單層和雙層CNN對模型進行訓練,最后對兩種技術的精度進行了計算與比較。
2.CNN與HMM相結合的手語識別技術。目前,手勢和SLR領域的大多數方法都忽視了處理訓練和評價序列數據的必要性。Oscar等人[24]構建的混合CNN-HMM模型結合了CNN強大的識別能力和HMM的序列建模能力。通過提出的端到端嵌入,能夠在3個具有挑戰(zhàn)性的基準連續(xù)手語識別任務上比目前的先進水平提高15%~38%的錯誤率,并達到20%的絕對量。分析了CNN結構、網絡預訓練和隱藏狀態(tài)數的影響,并將混合建模方法與串聯建模方法進行了比較。
3.CNN與RNN相結合的手語識別技術。JO等人[25]利用具有預處理和重疊窗口的卷積遞歸神經網絡(CRNN)實時魯棒的識別手勢。CRNN是一種深度學習模型,它結合了用于時間序列信息分類的長短時記憶(LSTM)和用于特征提取的CNN。用于手勢檢測的傳感器采用Myo-armband,對6個手勢進行識別和分類,包括2個握手、3個手征、1個休息。作為肌電信號數據特征的必要預處理,現有的短時傅里葉變換(STFT)、連續(xù)時間小波變換(CWT)和新提出的尺度平均小波變換(SAWT)均被采用。因此,SAWT在靜止環(huán)境試驗中表現出較高的精度。無論是靜態(tài)測試還是實時測試,采用SAWT和重疊窗口的CRNN都表現出比其他方法更好的性能。
本文針對國內外SLR的純技術研究做出梳理。首先,對傳統(tǒng)的SLR方法進行歸納,包括模板匹配方法、HMM、NN及多種方法融合的手語識別技術;其次,研究基于深度學習的手語識別技術,主要包括基于CNN、RNN、GNN及多種方法融合的手語識別技術。由于SLR尚處在技術研究階段,其識別精度暫時尚難以支持流暢的交流,目前針對SLR的教改活動主要集中在一流聾人本科院校中,包括美國的羅切斯特理工學院國家聾人工學院[26]、俄羅斯鮑曼技術大學聾人中心[27]、日本的筑波技術大學[28]都有相應的教學應用探索。在我國,歷史上中國的聾人教育并未體現出很強的技術導向,主要側重教學方法的改進,目前還沒見到中國聾人院校關于SLR設備應用于課堂教學的公開報道。所以,如何將手語識別技術真正用于聽障教學,將是值得研究與探索的。未來從事SLR技術研究人員應為SLR設備制造商提供相應技術支持,國家和地方政府應加大資金的投入,為SLR設備制造商給予一定的政策支持,并鼓勵中國聾人院校積極運用SLR設備進行教學試點??傊?,需要社會各界人士一起努力,多方合作,為聽障人士創(chuàng)造更加便捷的溝通渠道。