江西財經(jīng)大學
劉英子,方嘉俊,溫 昕,李玫潔,謝有發(fā)指導老師:謝 亮
據(jù)最新資料統(tǒng)計,我國聽力、語言殘疾群體人數(shù)居各類殘疾之首,達到2 057萬人,占中國人口總數(shù)的1.67%,其中7歲以下兒童約80萬人。身體的殘疾為他們帶來了生活的不便,內(nèi)心的自卑,他人異樣的眼光等與外界交流的障礙嚴重影響了他們的生活質(zhì)量,大多數(shù)聾啞人僅能與家人和同群體互動交流,與正常人群體往來甚少。聾啞人士與不懂手語的正常人士溝通存在極大的障礙,而當前現(xiàn)今僅有非常小比例的正常人群體掌握了手語。
隨著國內(nèi)《中國制造2025》和“互聯(lián)網(wǎng)+”以及國外由德國提出的工業(yè)4.0熱潮的涌起,未來將以可穿戴智能產(chǎn)品、智能家電、智能汽車等智能終端產(chǎn)品為主要發(fā)展方向。雙向交流手語翻譯器是一款可穿戴智能產(chǎn)品,能夠與手機等設備構成無線通信網(wǎng),符合《中國制造2025》和“互聯(lián)網(wǎng)+”高科技戰(zhàn)略。
設計本作品的目的在于人性化地為語言障礙、聽力障礙者與正常人以及不同地域、民族的聾啞人群體之間交流困難這一問題提供一個簡單有效的解決方案。
本作品設計了一個聾啞人與正常人雙向交流的翻譯系統(tǒng),可實現(xiàn)如下功能:
(1)手語轉(zhuǎn)語音和文字;
(2)語音轉(zhuǎn)手語動畫和文字;
(3)文字轉(zhuǎn)手語動畫;
(4)采用機器學習的方法進行手勢識別,并自定義手勢;
(5)遠距離多人交流。
2.1.1 作品系統(tǒng)框架設計
作品系統(tǒng)框架如圖1所示。
圖1 作品系統(tǒng)框架設計
2.1.2 作品功能
(1)手勢實時翻譯為語音和文字
聾啞人將手套戴在手上并通過手語交流時,手語翻譯器將自動翻譯并播放語音,告訴其他人手語的含義,同時,將信息由無線網(wǎng)絡傳送至手機移動終端,在手機移動終端上顯示文字、播放語音或者播放手語視頻。比如聾啞人比出“你好”,手機接收信息后將顯示文字“你好”,播放語音或視頻。手語轉(zhuǎn)語音、文字功能如圖2所示。
圖2 手語轉(zhuǎn)語音、文字功能圖
(2)語音翻譯為手勢動畫
使用者對著語音模塊說話時,信息將通過無線模塊傳送至手機移動終端,在APP中進行識別語分析,之后找尋相對應的手語動畫,通過視頻形式播放,使聽障人士“聽見”聲音。語音轉(zhuǎn)手語功能如圖3所示,語音轉(zhuǎn)手語功能實拍如圖4所示。
(3)采用人工智能技術通過機器學習識別手勢,并可自定義手勢和方言
利用手機設計了一款基于機器學習的APP,用以解決以下問題:
①為受教育程度不高的聾啞人提供“傻瓜式”操作;
②機器學習訓練,自適應聾啞人手的大小差異;
③機器學習訓練,適應各國、各地區(qū)、個體的聾啞人手語差異;
④機器學習訓練,適應各國、各地區(qū)方言差異;
⑤機器學習訓練,避免需要專業(yè)人士為聾啞人量身定做等繁瑣步驟。
圖3 語音轉(zhuǎn)手語功能圖
圖4 語音轉(zhuǎn)手語功能實拍圖
用戶只需在APP中的自定義界面輸入想要加入或修改的詞匯,并帶上傳感手套做出對應的手語動作,APP即會采集并分析此手勢的關鍵信息并保存。所有自定義的手勢都可立即使用。通過機器學習自定義手勢功能如圖5所示。
圖5 通過機器學習自定義手勢功能圖
2.1.3 作品設計基本思路
本作品主體包括傳感手套、語音手表和手機APP。
(1)傳感手套
通過傳感手套上的彎曲傳感器、陀螺儀傳感器和加速度傳感器采集數(shù)據(jù),進行分析和識別翻譯,之后將處理翻譯后的結果發(fā)送至手機端。
(2)語音手表
通過識別用戶的語音輸入,將語音信息發(fā)送至手機端,并播放對應手勢動畫。
(3)手機APP
手機APP可將接收的翻譯信息轉(zhuǎn)化為文字或語音,同時也可用于識別正常人的語音信息,并將其轉(zhuǎn)化為文字和手語動畫。
本作品設計了兩種不同的交流模式,以真正實現(xiàn)聾啞人和普通人之間的雙向交流。
(1)聾啞人與正常人溝通
傳感手套可識別并將聾啞人的手語翻譯為普通人可以理解的語音或文字,如圖6所示。
圖6 翻譯模式
(2)正常人與聾啞人溝通
語音手表可將普通人輸入的語音信息轉(zhuǎn)化為文字或手語動畫在手機上顯示,使聽力障礙者能快速理解普通人的語意。溝通模式如圖7所示。
圖7 溝通模式
(3)機器學習
為了適應不同人不同手勢的差別,采用機器學習的相應算法進行手勢識別,極大地提高了作品的實用性以及識別準確率,同時作品還支持手勢自定義功能,用戶可在手機APP上進行手勢訓練,設置手勢以及對應翻譯,且訓練結果可立即使用。用戶還可通過掃描二維碼了解一些手語,方便用戶學習。機器學習模式如圖8所示,手語學習二維碼設計如圖9所示。
圖8 機器學習
圖9 手語學習二維碼設計
2.1.4 功能測試結果
這款手語翻譯器不僅能夠通過手指彎曲度和手的朝向完成大多數(shù)靜態(tài)手語手勢的識別,如手語詞數(shù)字“5”“ok”等,還能通過處理、提取所采集數(shù)據(jù)的特征完成動態(tài)手勢識別。
靜態(tài)手語數(shù)字“5”手勢示意如圖10所示,測試結果如圖11所示,由手機APP顯示識別結果。
圖10 數(shù)字“5”手勢語示意圖
圖11 數(shù)字“5”的手機APP結果顯示
圖12 “ok”手勢語示意圖
圖13 “ok”手勢手機APP結果顯示
動態(tài)手語數(shù)字“20”手勢示意如圖14所示,測試結果如圖15所示,手機APP顯示識別結果。
圖14 “20”手勢語示意圖
圖15 “20”手勢手機APP結果顯示
動態(tài)手語“謝謝”手勢示意如圖16所示,測試結果如圖17所示,手機APP顯示識別結果。
此外,本產(chǎn)品在測試時,分別對其中六種靜態(tài)手語和六種動態(tài)手語各測試了1 000組數(shù)據(jù)。對于靜態(tài)手語來說,只要給定足夠長的時間,都能夠被正確識別,識別率高達99%;動態(tài)手語識別率相比較低,但均高于92%。手語識別率見表1所列。
圖16 “謝謝”手勢語示意圖
圖17 “謝謝”手勢手機APP結果顯示
表1 手語識別率
2.1.5 適用范圍
該產(chǎn)品的使用場合較為廣闊,沒有大的空間限制條件,為健聽人與聾啞人之間的交流搭建了一個高效快捷的平臺,不僅能夠改善如今市面上語言障礙患者輔助用品匱乏的現(xiàn)象,更是改善聾啞人士生活的語言輔助器具。
(1)服務于聾啞人群及其相關群體
(4)樹立實時創(chuàng)新意識。創(chuàng)新是企業(yè)永恒的話題,對企業(yè)財務管理同樣如此。新時期需要積極引進風險投資等科學理念,認真學習各項新的財務工具,盡可能多的在傳統(tǒng)的財務工作方法上有所突破,提高財務效率的同時,也能夠更好的降低企業(yè)財務成本,防范企業(yè)可能面臨的眾多財務風險。
手語翻譯器主要針對聾啞人群及其相關群體設計。在日常生活中,一個高效的手語翻譯工具是聾啞人和周圍人群溝通的橋梁,利用手語翻譯工具與聾啞人進行交流溝通必不可少。聾啞人及其相關群體是本產(chǎn)品的主要消費人群。
(2)服務于聾啞人群集中區(qū)域
手語翻譯器主要服務于聾啞人群集中區(qū)域。在聾啞學校、福利院等聾啞人群集中區(qū)域,利用手語翻譯工具與聾啞人進行交流溝通十分便利。因此,對于聾啞人群集中的區(qū)域而言,本產(chǎn)品將更受歡迎。
(3)可用于手語相關培訓、學習
手語翻譯器不僅可被聾啞人群及其相關群體、各類公益機構所使用,還可適用于廣大人群進行手語學習及相關機構的培訓。
2.2.1 基于機器學習的手勢識別技術
作品采用機器學習相應算法對手勢進行識別,使得作品實用性以及準確率都有較大提升,能夠適應不同人不同手勢的差異,使靜態(tài)手勢識別率接近100%,復雜動態(tài)手勢識別率最低為92%,準確率和穩(wěn)定性極佳。同時,用戶還能夠訓練自定義手語手勢,方便快捷。
2.2.2 基于多傳感器融合系統(tǒng)的數(shù)據(jù)采集技術
利用運動傳感器和形態(tài)傳感器對手指的空間姿態(tài)以及彎曲狀況進行高精度捕捉,使得采集特征全面且準確。
2.2.3 處理技術
數(shù)據(jù)抽取時以0.1 s為時間間隔,并在保證有效性的前提下進行壓縮。在已提取的數(shù)據(jù)基礎上,提取和計算出方差、均值、最值數(shù)據(jù),為最終的識別做準備。
2.3.1 功能優(yōu)勢
(1)真正的雙向交流
系統(tǒng)搭建了聾啞人和正常人雙向溝通的橋梁,既可以將手語實時翻譯,并在硬件設備端顯示文字和播放語音,還可以在APP中直接將文字和語音信息轉(zhuǎn)化為對應的手語動畫,實現(xiàn)雙向轉(zhuǎn)譯功能,即使在昏暗的壞境中也可實現(xiàn)無障礙交流。
(2)智能的機器學習技術
本系統(tǒng)采用BP神經(jīng)網(wǎng)絡算法實現(xiàn)機器學習,方便用戶進行自定義操作。在用戶開啟系統(tǒng)的學習功能時,本系統(tǒng)會根據(jù)用戶的手勢不斷提取特征數(shù)據(jù),當用戶重復的數(shù)量達到一定值,且系統(tǒng)提取到滿足訓練要求的特征數(shù)據(jù)時,則代表學習成功,系統(tǒng)會將此手語信息儲存并為用戶自定義手勢對應翻譯內(nèi)容。當用戶下次做出此手語動作時,系統(tǒng)會識別并翻譯該自定義手勢。
(3)精準的手語數(shù)據(jù)識別技術
本產(chǎn)品采用雙手設計模式,信息采集精度更高,不僅能夠準確識別多種手勢,還可以方便用戶自定義相關手勢含義。通過手部的多傳感器數(shù)據(jù)融合來識別手部及手指運動信息從而確定手勢信息,避免因其他部位運動引起手勢識別誤差。
(4)攜帶便利
如上所述,本產(chǎn)品采用雙手設計模式,產(chǎn)品外形為手套,攜帶輕便,使用可靠,且不易損壞。
(5)人性化產(chǎn)品體驗
與其他手語翻譯結果表示方式相比,大多采用文字來表現(xiàn)所要傳達的意思,而本產(chǎn)品將數(shù)據(jù)處理后在進行文字表現(xiàn)的同時帶有語音播報和視頻播放功能,兼顧視覺與聽覺,使溝通方式更為生動。
(6)便捷的人機交互技術
與現(xiàn)有的人機交互技術相比,傳統(tǒng)技術大多選擇將數(shù)據(jù)傳輸至計算機進行處理,且表現(xiàn)方式只選用文字或揚聲器,而本產(chǎn)品的系統(tǒng)經(jīng)無線模塊將數(shù)據(jù)實時傳輸至移動終端,將翻譯器與APP相結合,使用更為便捷。
2.3.2 技術優(yōu)勢
(1)作品采用機器學習相應算法進行手勢識別,極大地提高了作品的實用性以及識別準確率;
(2)由分布在五指關節(jié)的形態(tài)傳感器與運動傳感器采集數(shù)據(jù),捕捉的動作精確度高;
(3)個性化設定:用戶可以自己為手語翻譯器輸入新的手勢信息并使用;
(4)佩戴舒適,操作方式簡單便捷;
(5)具有顯示功能和語音功能,同時設計有配套APP;
(6)慣性記錄、機器學習:數(shù)據(jù)手套會儲存用戶的使用記錄,方便產(chǎn)品了解用戶;
(7)電池節(jié)能環(huán)保。
2.3.3 同類對比
針對聾啞人的交流問題,國內(nèi)外均由研究團隊給出了解決方案。目前,言語障礙人士主要通過三種途徑“發(fā)聲”,分別為使用助講器(電子喉);依靠食道的震動發(fā)出聲音;手語交流。目前市場上的手語翻譯產(chǎn)品主要包括UNI平板,手語手環(huán),數(shù)據(jù)手套。
(1)UNI 平板
Motion Savvy公司在2014年設計的UNI平板外殼利用Leap Motion技術記錄、識別手勢動作,具有使用不便,識別距離有限等缺陷,此類基于圖像處理的動作采集方式具有明顯的識別盲區(qū),并且只能將手勢翻譯為文字進行單向交流。
(2)手語手環(huán)
手環(huán)利用肌電信號等傳感器對手指動作進行解碼。這款概念產(chǎn)品只能單向轉(zhuǎn)譯,并且可識別手勢少,精確度不高,實用性存在較大缺陷。
(3)數(shù)據(jù)手套
烏克蘭enable talk團隊研發(fā)出一種可翻譯手勢的手套,同時配備操作系統(tǒng),能將手語翻譯成文本,但它也只能進行單向轉(zhuǎn)譯,且參數(shù)調(diào)整不便,價格昂貴。
雙向交流手語翻譯器與市場現(xiàn)有產(chǎn)品的對比見表2所列。
表2 雙向交流手語翻譯器與市場現(xiàn)有產(chǎn)品的對比
3.1.1 真正的雙向交流
系統(tǒng)搭建了聾啞人和正常人之間雙向溝通的橋梁,既可以將手語實時翻譯為文字信息和語音信息,還可以通過手機和語音手表兩種方式識別語音輸入,然后播放對應的手語動畫,實現(xiàn)雙向轉(zhuǎn)譯功能。即使在昏暗的壞境中也可實現(xiàn)無障礙交流。
3.1.2 機器學習
作品利用手機設計了一款基于機器學習的APP,可解決自適應聾啞人手掌大小等問題。
3.1.3 遠距離多人交流
可多用戶組建交流無線局域網(wǎng)絡,實現(xiàn)多點無障礙互通交流??稍诨璋怠⑧须s喧鬧的環(huán)境中實現(xiàn)多用戶遠距離無障礙交流。
3.1.4 多傳感數(shù)據(jù)融合技術
目前世界上主流的兩種手語識別技術分別為現(xiàn)代圖像識別技術和多傳感數(shù)據(jù)融合技術?,F(xiàn)代圖像識別技術自適應性差,一旦目標圖像被噪聲污染或是目標圖像有殘缺往往無法得到理想的結果。而本作品所采用的多傳感數(shù)據(jù)融合技術,能夠提高整個作品的可靠性和健壯性,增強數(shù)據(jù)的可信度與精度,保障作品的實時性。
3.1.5 加入生物電仲裁判斷手勢
通過對手部生物電信息的采集和分析,可以進一步提高精度,消除外部干擾對手勢數(shù)據(jù)采集和分析的影響。
3.2.1 機器學習技術
在用戶定義翻譯時,本系統(tǒng)采用機器學習相應算法實現(xiàn)手勢識別。在用戶開啟系統(tǒng)的學習功能時,本系統(tǒng)會根據(jù)用戶的手勢不斷提取特征數(shù)據(jù),當用戶重復的數(shù)量達到一定值,且系統(tǒng)提取到滿足訓練要求的特征數(shù)據(jù)時,則代表學習成功,系統(tǒng)會將此手語信息儲存并且由用戶自定義手勢對應翻譯內(nèi)容。這樣在下次使用并做出此手語動作時,系統(tǒng)會識別并翻譯此自定義的手勢。
3.2.2 手勢數(shù)據(jù)處理技術
在處理數(shù)據(jù)時,本作品根據(jù)自主研究設計的一種手勢識別專用多維數(shù)組算法實現(xiàn)了對手勢的定時采樣和特征值提取。
定時采樣:在實驗過程中,發(fā)現(xiàn)對于大多數(shù)簡單的手語手勢假設1 s時間內(nèi)可以表達結束。于是在處理時先抽取數(shù)據(jù),以每0.1 s為抽取時間間隔,之后將抽取的數(shù)據(jù)保存到一個18×14的數(shù)組中,其中每一行的數(shù)據(jù)為不同時刻手的姿態(tài)信息(比如第一行為初始時刻的手的各種傳感數(shù)據(jù)),每一列的數(shù)據(jù)為傳感數(shù)據(jù)個數(shù),通過定時采樣,在保證有效性的前提下將數(shù)據(jù)壓縮,降低下一步算法的復雜度。
3.2.3 手勢數(shù)據(jù)采集技術
對于大部分手語而言,只需采集各手指的彎曲情況、手的朝向和手部運動軌跡就能推導出整只手的動作所包含的信息。因此,本團隊基于對各信號的采集設計了一款傳感手套,該傳感手套內(nèi)嵌有形態(tài)傳感器且手背上固定了運動傳感器。
形態(tài)傳感器用以獲取手指形態(tài),判斷手指的彎曲程度,運動傳感器用于獲取手部姿態(tài)信息。采集數(shù)據(jù)時,在上述兩種傳感器的基礎上還增加了生物電傳感器,用于采集做手語動作時的肌肉電信息,并通過分析此肌肉電信息獲取手部動作和姿勢信息。通過融合以上三種傳感器的數(shù)據(jù),系統(tǒng)的精準度和穩(wěn)定性得到了良好保證。