李祉穗 陳慶寅 蔡樹穎 廖纓誼
摘要:手語識別的學(xué)習(xí)難度較高以及學(xué)習(xí)周期較長問題阻礙了聾啞人與健聽人進(jìn)一步的溝通,因?yàn)檫@一現(xiàn)狀,我們提出了一個基于OpenCV的交流方案。該方案最終呈現(xiàn)的是一套基于OpenCV的,最終于手機(jī)終端應(yīng)用呈現(xiàn)翻譯結(jié)果的手語翻譯器。該翻譯器不僅能夠解決手語識別的問題,同時也可用于手語教學(xué)、運(yùn)動姿態(tài)識別等方面,應(yīng)用前景廣泛。
關(guān)鍵詞:手語識別
0.引言:
據(jù)最新資料顯示,我國聽障人士人數(shù)居五大殘疾之首,約為2057萬人,占全國殘疾人的30%以上。而其中,7歲以下聽障兒童約為80萬人。與此同時,健聽人士在學(xué)習(xí)手語方面有一定的難度,這阻礙了聾啞人士與健聽人士之間的交流,也為聾啞人士融入社會帶來了阻礙。因此,實(shí)現(xiàn)無障礙化溝通成為和諧社會重要的內(nèi)容。
1.現(xiàn)狀分析:
不同于大部分的計算機(jī)問題,手語特有的地域性、復(fù)雜性和多樣性,不僅增加了數(shù)據(jù)采集和清洗的成本,也使得這門技術(shù)的落地存在很大的挑戰(zhàn),在使用過程中容易出現(xiàn)手語動作不明確、混亂的問題;同時現(xiàn)有手勢識別也存在識別不準(zhǔn)確的問題造成翻譯錯誤0,嚴(yán)重影響到聾啞人溝通。
2.設(shè)計概述:
本作品最終的目的是搭建起聾啞人士與健聽人士之間溝通的橋梁。在綜合運(yùn)用圖像識別、Android開發(fā)等技術(shù),通過手機(jī)軟件實(shí)時翻譯出聾啞人的手語,將轉(zhuǎn)換成語音外放出來,并同步生成文字版顯示在手機(jī)終端上。
2.1 本設(shè)計的一般描述
2.1.1 開發(fā)軟件的背景
如今,手語翻譯器產(chǎn)品大致分為三個方向:數(shù)據(jù)手套類手語翻譯器,視覺類手語翻譯器,如聲吶等其他手勢識別技術(shù)。而視覺類手語翻譯器通常采用由于僅采用膚色提取或輪廓提取等常用方法識別手勢,容易受環(huán)境因素影響,準(zhǔn)確性低。同時,如何讓手語翻譯器打破傳統(tǒng)殘障輔助用品伴隨而來的同情或者歧視,如何通過產(chǎn)品外觀增強(qiáng)使用者的信心,值得設(shè)計師思考。
2.2 軟件功能
2.2.1 系統(tǒng)流程
該手語翻譯器通過調(diào)用手機(jī)前置或后置攝像頭,記錄并識別出用戶的手語動作,將分析處理后的數(shù)據(jù)轉(zhuǎn)換成相應(yīng)的音頻或文字文件輸出。具體系統(tǒng)流程圖見圖表一,。
2.2.2 頂層數(shù)據(jù)流
通過手語翻譯接收方使用手機(jī)攝像頭對準(zhǔn)手語展示方,記錄下手語動作,手機(jī)將實(shí)時翻譯出成文字與語音。詳見圖表二。
2.3系統(tǒng)技術(shù)主要指標(biāo):
1)對手勢識別的準(zhǔn)確度:準(zhǔn)確率達(dá)90%及以上;
2)對手勢識別的實(shí)時性要求:在手勢變換后手語翻譯器需立刻識別出變換并更新翻譯結(jié)果;
3)平臺開放性:在按照我方要求與標(biāo)準(zhǔn)的情況下建立的手語手勢資源庫可無限制接入本平臺。
3.系統(tǒng)實(shí)現(xiàn)
3.1運(yùn)行環(huán)境
(1) 視頻處理工具:ffmpeg-20181115
(2) 集成開發(fā)環(huán)境:Microsoft Visual Studio Code、Anaconda3
(3) 界面設(shè)計工具:Android Studio
(4) 編程語言環(huán)境:python3.6、Java8.0
3.2具體實(shí)現(xiàn)步驟與序列圖:
(1)調(diào)用前置/后置攝像頭;(2)opencv處理;(3)openpose姿態(tài)識別;(4)建立一個姿態(tài)模型;(5)將傳遞到神經(jīng)網(wǎng)絡(luò)中;(6)通過大量的數(shù)據(jù)和迭代更新出一個正確率足夠高的模型;(7)進(jìn)行圖形識別;(8)將識別的結(jié)果轉(zhuǎn)換成對應(yīng)的文本顯示在APP屏幕;(9)將文字信息轉(zhuǎn)化為聲音信息外放出來。
3.3 關(guān)鍵幀的提取
本設(shè)計采用的是以“局部最大值”方法提取的關(guān)鍵幀。采用該方法是因?yàn)樗x定關(guān)鍵幀的標(biāo)準(zhǔn)是看本幀是否擁有平均幀間差分強(qiáng)度的局部最大值,如果是,則是關(guān)鍵幀。其優(yōu)點(diǎn)是所得結(jié)果豐富度較好,并均勻分布在所有幀中。
3.4 手語數(shù)字特征的提取
本手語翻譯器的重點(diǎn)就在于手勢的識別。如今很多手語翻譯器的識別精度不高,準(zhǔn)確率不太理想,最重要的原因就是同類翻譯器通常僅采用深度學(xué)習(xí)模型0,對于手部位置的識別能力較低。為了解決這一問題,我們使用OpenPose來進(jìn)行用戶的姿態(tài)識別,通過OpenPose定位出用戶的大致骨骼位置后,再在其基礎(chǔ)上定位出手部的位置,將識別出來的姿態(tài)的參數(shù)傳遞給神經(jīng)網(wǎng)絡(luò),通過大量圖片的訓(xùn)練學(xué)習(xí)不同的手語含義,再拼接起來,組成簡單能夠交流的語句。
參考文獻(xiàn)
[1]米娜瓦爾·阿不拉,阿里甫·庫爾班,解啟娜,耿麗婷.手語識別方法與技術(shù)綜述[EB/OL]. 計算機(jī)工程與應(yīng)用, 2021.
[2]秦夢現(xiàn).手語識別研究綜述[J]. 軟件導(dǎo)刊,2021.