亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于計(jì)算機(jī)視覺的手語雙向通信系統(tǒng)

        2023-10-24 03:29:56千學(xué)明羅振剛趙培智楊子琪
        物聯(lián)網(wǎng)技術(shù) 2023年10期
        關(guān)鍵詞:手語手勢靜態(tài)

        王 鴿,千學(xué)明,羅振剛,趙培智,劉 濤,楊子琪

        (西安工業(yè)大學(xué) 機(jī)電工程學(xué)院,陜西 西安 710021)

        0 引 言

        手語是聽力語言障礙患者的主要溝通方式之一,與手勢不同,它是一種通過面部表情和手部動作表達(dá)意思的特殊語言形式。對于聽力和語言障礙人群來說,手語不僅便于其日常學(xué)習(xí),而且可以為他們帶來就業(yè)機(jī)會?;谟?jì)算機(jī)視覺的手語雙向通信系統(tǒng)包括手語識別、翻譯和手語動畫生成等功能,不僅能夠幫助無障礙人群理解手語,還可以將自然語言轉(zhuǎn)化為手語動作并生成手語動畫,便于聽力和語言障礙人群理解。目前許多學(xué)者僅針對手語識別、翻譯[1-2]方面進(jìn)行了深入的研究,但是對于實(shí)現(xiàn)無障礙人群和聽力語言障礙人群兩者之間的雙向通信研究少之又少。如呂蕾等人[3]利用數(shù)據(jù)手套收集用戶手部動作變化數(shù)據(jù),提取其動作特征并進(jìn)行手勢識別。贠衛(wèi)國等人[4]融合紋理特征、幾何特征和卷積神經(jīng)網(wǎng)絡(luò)等特征進(jìn)行手勢識別,從而提高手語的識別率。張鑫等人[5]提出了一種CGRU-ELMD 的混合深度模型來識別六種常見的人機(jī)交互手勢,其平均準(zhǔn)確度達(dá)到了93.4%。谷學(xué)靜等人[6]利用卷積神經(jīng)網(wǎng)絡(luò)和長短時記憶網(wǎng)絡(luò)相結(jié)合的方法識別動態(tài)手勢序列,其平均識別率達(dá)到92.5%。Hurroo 等人[7]使用體積神經(jīng)網(wǎng)絡(luò)來訓(xùn)練和預(yù)測ASL 數(shù)據(jù)集,準(zhǔn)確率為94.7%。欒迪等人[8]使用基于卷積神經(jīng)網(wǎng)絡(luò)的靜態(tài)手勢識別方法,經(jīng)過圖像采集、圖像識別、數(shù)據(jù)處理、CNN 建模、參數(shù)訓(xùn)練等步驟,通過測試集驗(yàn)證該模型的準(zhǔn)確率達(dá)到了92.19%。郭書杰[9]針對復(fù)雜背景會對手勢識別產(chǎn)生一定程度的影響,提出一種基于AlexNet 優(yōu)化模型的手勢識別方案,該方案的識別準(zhǔn)確率可達(dá)到93%。李晨等人[10]利用卷積神經(jīng)網(wǎng)絡(luò)提取手語的手型特征,利用軌跡歸一化算法和長短時記憶網(wǎng)絡(luò)識別連續(xù)的動態(tài)手語,該算法可以識別47 個常用手語詞組成的語句。以上的研究內(nèi)容僅關(guān)注手語的識別、翻譯,而忽視了在實(shí)際雙向交流過程中手語的生成,且在訓(xùn)練模型時關(guān)注靜態(tài)手語較多,具有很大的局限性。

        綜合考慮手語的廣義性、多樣性、復(fù)雜性以及遮擋性問題,本文提出了一種基于計(jì)算機(jī)視覺的手語識別、翻譯以及手語生成的一體化系統(tǒng),實(shí)現(xiàn)手語交流雙向通信。手語識別、翻譯旨在將攝像頭錄入的手語視頻轉(zhuǎn)化為文本或語音,而手語生成是根據(jù)自然語言生成手語合成視頻。本文采用AlexNet 神經(jīng)網(wǎng)絡(luò)模型、CNN-GUR 神經(jīng)網(wǎng)絡(luò)模型分別對靜態(tài)手語和動態(tài)手語進(jìn)行訓(xùn)練。手語的生成利用自然語言處理技術(shù)、狀態(tài)機(jī)工作原理,將識別到的語音或文字信息自動匹配到手語數(shù)據(jù)庫中,完成手語動畫視頻的生成,手語的識別、翻譯和生成互為逆過程。

        1 手語雙向系統(tǒng)

        如圖1 所示,基于計(jì)算機(jī)視覺的手語識別系統(tǒng)設(shè)計(jì)具有以下3 個主要功能:驗(yàn)證用戶身份、手語識別和翻譯功能、手語生成功能。用戶通過輸入賬號和密碼登錄主系統(tǒng)頁面后,選擇手語識別功能,系統(tǒng)將會打開攝像頭捕捉用戶的手部動作,本文采用中國手語和阿拉伯?dāng)?shù)字手勢進(jìn)行模型訓(xùn)練,輸出結(jié)果為中國漢字或中國漢語;用戶還可以選擇手語生成,通過識別將用戶的語音轉(zhuǎn)換為相應(yīng)的中文,然后將識別出的手語圖片轉(zhuǎn)化為視頻顯示給用戶。

        圖1 手語識別系統(tǒng)流程

        2 手語識別、翻譯

        目前,手語識別的方法有很多[11-13],主要有3 類:基于傳統(tǒng)的模型方法、基于模型的優(yōu)化方法、基于神經(jīng)網(wǎng)絡(luò)算法?;谟?jì)算機(jī)深度學(xué)習(xí)特征具有良好的空間時序表達(dá)性能,神經(jīng)網(wǎng)絡(luò)模型在手語研究中得到了廣泛的應(yīng)用。如圖2 所示,手語由靜態(tài)手語和動態(tài)手語兩類組成[14]。本文針對靜態(tài)手語設(shè)計(jì)一種AlexNet 的網(wǎng)絡(luò)模型,針對動態(tài)手語設(shè)計(jì)了一種基于改進(jìn)的CNN-GRU 混合模型。

        圖2 手語分類框架

        2.1 數(shù)據(jù)預(yù)處理

        從Kaggle 下載DEVISIGN 手語數(shù)據(jù)集,該數(shù)據(jù)集包含4 414 個中國手語詞匯、331 050 個RGB-D 中國手語視頻動畫及其對應(yīng)的骨骼信息。下載后,分析圖像目錄中的子文件夾,修剪數(shù)據(jù)集,提取手部區(qū)域的圖像,將其分為7 ∶2 ∶1比例的訓(xùn)練集、測試集和驗(yàn)證集,將每張圖片處理為227×227 大小,并提取其“瓶頸”摘要層,檢索或計(jì)算圖像的“瓶頸”值,將未記錄的瓶頸值寫入文件。

        由于手勢識別的重點(diǎn)是手部輪廓和骨骼節(jié)點(diǎn)信息,所以使用OpenCV 處理過的灰度圖像即可。

        2.2 靜態(tài)手語識別

        靜態(tài)手語包括字母手指語、數(shù)字手指語,此外還包括了一些不需要肘關(guān)節(jié)參與運(yùn)動的手勢。

        2012 年Alex 等人憑借其設(shè)計(jì)的深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet 模型在Image Net 大賽中奪冠,引起了人們對于深度學(xué)習(xí)研究領(lǐng)域的廣泛關(guān)注,極大地促進(jìn)了計(jì)算機(jī)視覺領(lǐng)域的快速發(fā)展[7]。基于OpenCV的圖像采集處理,輸入單通道圖像,優(yōu)化AlexNet 模型用于靜態(tài)手語的識別。AlexNet 的優(yōu)化模型如圖3 所示,靜態(tài)手語的識別流程如圖4 所示。

        圖3 AlexNet 優(yōu)化模型

        圖4 靜態(tài)手語識別方案流程

        2.3 動態(tài)手語識別

        2.3.1 CNN 特征提取

        卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一個多層感知(MLP)的變體模型[15],通常由卷積層、池化層和全連接層三部分組成。卷積層負(fù)責(zé)特征提取的過程,通過奇數(shù)大小的卷積核對收集的數(shù)據(jù)信息進(jìn)行卷積運(yùn)算并提取其局部特征,降低了輸入數(shù)據(jù)的維度且更新需要輸出的參數(shù)值。池化層是對卷積層輸出的特征圖中某些特征區(qū)域內(nèi)的特征進(jìn)行采樣并刪除多余的信息,以此來表征該特征區(qū)域的整體特征值,減少需要在下一層進(jìn)行處理的數(shù)據(jù)量。最后,通過全連接網(wǎng)絡(luò)、權(quán)重矩陣將卷積層、池化層提取到的局部特征組合成完整圖像并重新進(jìn)行分類。實(shí)際上,CNN 的多個卷積核是在不同維度上對輸入數(shù)據(jù)進(jìn)行特征提取,并通過抽象得到表征全局的特征。但是,傳統(tǒng)的CNN 模型參數(shù)過多,訓(xùn)練數(shù)據(jù)不足,容易導(dǎo)致過度擬合。

        2.3.2 門控循環(huán)神經(jīng)單元

        GRU 是從LSTM 中發(fā)展并對LSTM 的三個門函數(shù)進(jìn)行優(yōu)化而來,將LSTM 中的遺忘門和輸出門集成為單一的更新門,并引入了重置門的概念[16]。對于規(guī)定的時間步輸入,重置門控制前一時刻的狀態(tài)信息忽略程度,更新門控制當(dāng)前狀態(tài)對前一時刻的狀態(tài)信息的接收程度。GRU 通過變量h傳遞數(shù)據(jù)特征[17]。為了防止出現(xiàn)梯度消失或梯度爆炸問題,GRU在前一時刻網(wǎng)絡(luò)狀態(tài)ht-1和當(dāng)前網(wǎng)絡(luò)狀態(tài)ht之間添加線性依賴關(guān)系。

        2.3.3 CNN-GRU 網(wǎng)絡(luò)

        CNN 卷積神經(jīng)網(wǎng)絡(luò)模型適用于特征提取,GRU 網(wǎng)絡(luò)模型適用于處理空間時序數(shù)據(jù)和反向傳播中的梯度消失和梯度爆炸問題,而動態(tài)手語的識別任務(wù)是對三維空間中手部動作變化的角度、角速度、加速度等時間序列進(jìn)行分類識別,因此本文采用CNN-GRU 混合網(wǎng)絡(luò)模型的方法進(jìn)行動態(tài)手語識別。如圖5 所示,本文設(shè)計(jì)動態(tài)手語識別流程主要包括三部分。第一部分是由卷積層和池化層構(gòu)成的輸入部分,第二部分是由GRU 單元構(gòu)成的中間部分,第三部分是由全連接和Softmax 分類構(gòu)成的輸出部分。

        圖5 動態(tài)手語識別流程框圖

        2.4 模型訓(xùn)練結(jié)果

        完成上述數(shù)據(jù)預(yù)處理和參數(shù)設(shè)置后,啟動模型訓(xùn)練任務(wù),將訓(xùn)練數(shù)據(jù)集分成20 組進(jìn)行模型訓(xùn)練,創(chuàng)建優(yōu)化器和損失函數(shù),定義學(xué)習(xí)率的衰減點(diǎn),訓(xùn)練到50%和70%,學(xué)習(xí)率降低到1/10,將每次訓(xùn)練的損失存入平均交叉熵中,在每組訓(xùn)練完成后得到一組訓(xùn)練損失、驗(yàn)證損失和最佳驗(yàn)證損失,并用所得數(shù)據(jù)不斷更新學(xué)習(xí)率,直到所有20 組都得到訓(xùn)練。該模型對中國手語和阿拉伯?dāng)?shù)字的最終識別精度為95.52%。

        3 手語生成

        手語生成是指將文本或語音轉(zhuǎn)換成相應(yīng)的手勢動畫的過程,涉及自然語言處理、句子分詞以及動畫拼接。該系統(tǒng)采用語音識別技術(shù),無障礙患者輸入語音或文本,經(jīng)過自然語言的處理、句子分詞自動匹配DEVISIGN 手語數(shù)據(jù)集中相應(yīng)的中文手語圖片,使用OpenCV 圖像處理技術(shù)將幀率設(shè)置為1,將圖片以序列顯示的方式[18]拼接成動畫并生成視頻文件,以AVI 格式顯示生成的手語視頻。流程如圖6所示。

        圖6 手語生成流程

        3.1 文本分詞并查找同義詞

        將語音轉(zhuǎn)化為文本或無障礙患者直接輸入文本后,系統(tǒng)對文本進(jìn)行分詞,將一段文字拆分成多個單詞或短語。

        3.2 基于狀態(tài)機(jī)的動畫拼接

        從DEVISIGN 手語數(shù)據(jù)集中找到詞匯序列所對應(yīng)的圖片,使用OpenCV 圖像處理技術(shù),設(shè)置幀率為1,將圖片以序列顯示的方式拼接成動畫并生成視頻文件。在手語視頻拼接過程中,有如下規(guī)則:

        定義1:SL(手語詞匯庫)=(S1,S2, ...,Sn),其中Si代表第i個手語詞匯。當(dāng)i<j時,Len(Si)<Len(Sj)。

        定義2:詞匯Si的手語詞匯動畫視頻。T(Si)={W1,W2, ...,Wn},其中Wi代表對應(yīng)手語詞匯的手語動畫。

        把每個手語動畫序列看成一個狀態(tài),則手語動畫生成方法如圖7 所示。

        圖7 手語動畫生成規(guī)則

        4 結(jié) 語

        本文設(shè)計(jì)了一個基于計(jì)算機(jī)視覺的手語雙向通信系統(tǒng),利用AlexNet 神經(jīng)網(wǎng)絡(luò)提取DEVISIGN 數(shù)據(jù)語料庫的特征,實(shí)現(xiàn)靜態(tài)手語的識別和翻譯輸出;利用CNN 神經(jīng)網(wǎng)絡(luò)提取DEVISIGN 數(shù)據(jù)語料庫的特征,并將其放入GRU 分類器中,實(shí)現(xiàn)動態(tài)手語、阿拉伯?dāng)?shù)字的識別和翻譯輸出。同時,基于狀態(tài)機(jī)將用戶輸入的文本或語音轉(zhuǎn)換為相應(yīng)的中國手語或阿拉伯?dāng)?shù)字手語動畫,實(shí)現(xiàn)手語的生成。實(shí)驗(yàn)測試手語識別準(zhǔn)確率為95.52%,手語翻譯準(zhǔn)確率為93.3%,能夠滿足基本需求,為聽障群體打開溝通之門。

        猜你喜歡
        手語手勢靜態(tài)
        靜態(tài)隨機(jī)存儲器在軌自檢算法
        挑戰(zhàn)!神秘手勢
        自然手語在聾人大學(xué)生手語中的使用調(diào)查研究——以南京特殊教育師范學(xué)院為例
        活力(2019年15期)2019-09-25 07:23:06
        V字手勢的由來
        勝利的手勢
        奇怪的手語圖
        機(jī)床靜態(tài)及動態(tài)分析
        具7μA靜態(tài)電流的2A、70V SEPIC/升壓型DC/DC轉(zhuǎn)換器
        奇怪的手語圖
        50t轉(zhuǎn)爐靜態(tài)控制模型開發(fā)及生產(chǎn)實(shí)踐
        上海金屬(2013年6期)2013-12-20 07:57:59
        久久道精品一区二区三区| 最近中文字幕免费完整版| 无码人妻精品一区二区三区下载| 97超在线视频免费| 日本一区二区高清视频在线播放| 日本免费一区二区在线视频播放| 夜夜揉揉日日人人青青| 日本www一道久久久免费榴莲 | 亚洲一区二区三区地址| 被三个男人绑着躁我好爽视频| 夜色阁亚洲一区二区三区| 中文亚洲成a人片在线观看| 亚洲激情一区二区三区不卡 | 国产一区二区三区影院| 国产h视频在线观看网站免费| 日本一区二区免费看片| 医院人妻闷声隔着帘子被中出| 亚洲精品自产拍在线观看| 一本色道久久综合中文字幕| 色久悠悠婷婷综合在线| 日日碰狠狠添天天爽| 亚洲熟妇色xxxxx欧美老妇| 美国又粗又长久久性黄大片| 精品人妻系列无码人妻漫画| 99久久精品费精品国产一区二区 | 国产午夜视频在线观看免费| 亚洲性啪啪无码av天堂| 久久国产综合精品欧美| 日本频道一区二区三区| 黑人巨茎大战俄罗斯美女| 午夜大片又黄又爽大片app| 日韩精品极品视频在线免费| 亚洲av网一区二区三区| 无码av免费精品一区二区三区| 久久久精品免费国产四虎| 成人一区二区三区国产| 色综合久久久久久久久久| 久久久久亚洲精品美女| 日韩精品自拍一区二区| 乱人伦中文视频在线| 国产国拍亚洲精品mv在线观看|