亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器視覺的聾啞人手語識(shí)別
        ——語音交互系統(tǒng)

        2021-12-14 02:47:10北京工業(yè)大學(xué)
        物聯(lián)網(wǎng)技術(shù) 2021年12期
        關(guān)鍵詞:聾啞人手語手勢(shì)

        北京工業(yè)大學(xué)

        王婧瑤,范 飛,劉豪宇,蔣鈺雯

        1 作品介紹

        本項(xiàng)目旨在研究一款基于機(jī)器視覺的聾啞人手語識(shí)別—語音交互系統(tǒng)。將該系統(tǒng)集成在Jetson TX2開發(fā)板上,并嵌入設(shè)備載體,由用戶隨身攜帶,在不改變聾啞人生活方式的前提下,利用機(jī)器視覺以及深度學(xué)習(xí)等技術(shù),為其與正常人更加便捷、高效的交流搭建友好的溝通平臺(tái)。

        初代產(chǎn)品的終端形態(tài)擬構(gòu)建為智能眼鏡,如圖1所示。鏡架側(cè)面搭接雙目攝像頭,可以通過調(diào)節(jié)角度確定捕捉范圍。攝像頭后側(cè)鏡腿處,嵌入Jetson TX2開發(fā)套件,作為核心處理系統(tǒng)。另一側(cè)鏡腿上嵌入揚(yáng)聲器等元件作為語音模塊,輸出聲音信號(hào)。

        圖1 初代產(chǎn)品示意圖

        揚(yáng)聲器一側(cè)鏡腿處,設(shè)置有開關(guān)按鈕與音量鍵調(diào)節(jié)滾輪,以及藍(lán)牙與充電插孔。同時(shí),該設(shè)備電源等原件,以及布線皆在鏡架內(nèi)部完成搭接。參數(shù)規(guī)格如圖2所示。

        圖2 參數(shù)規(guī)格

        使用說明:開啟設(shè)備鏡腿一側(cè)的開關(guān)按鈕,攝像頭處小燈亮起表明開始工作,揚(yáng)聲器一側(cè)滾輪滑動(dòng)調(diào)節(jié)聲音大小。設(shè)備開啟后,可將開關(guān)按鈕撥動(dòng)至中間檔位(共分為三檔,即開、關(guān)、中檔),即可暫時(shí)關(guān)閉實(shí)時(shí)捕捉功能,設(shè)備將進(jìn)入掛起狀態(tài),保持最低功耗。將檔位撥動(dòng)至“開”,即可繼續(xù)實(shí)現(xiàn)交互,完成交流。同時(shí),按動(dòng)左鏡腿第一個(gè)按鈕,小燈亮起,表示語音開始提取,對(duì)方回復(fù)將會(huì)通過藍(lán)牙傳至手機(jī)端,將語音轉(zhuǎn)為文字,便于用戶實(shí)時(shí)查看轉(zhuǎn)換結(jié)果。該設(shè)備可實(shí)現(xiàn)雙向交互,無交流障礙。

        若需要重新設(shè)置系統(tǒng)參數(shù),例如在特定場(chǎng)合需要加載專業(yè)語言包,又或者需要重新設(shè)置交流音色以及相應(yīng)頻率,只需利用設(shè)備攜帶的藍(lán)牙數(shù)據(jù)線連接電腦,登錄設(shè)備網(wǎng)站或者通過相關(guān)附帶插件進(jìn)行語音包擴(kuò)充、查看幫助文檔,從而對(duì)設(shè)備進(jìn)行重新設(shè)置。

        后續(xù)也將推出擴(kuò)充定制語音包,用戶只需打開移動(dòng)端的配套小程序或APP窗口,即可實(shí)現(xiàn)實(shí)時(shí)加載,適配多種環(huán)境與多種語言。

        2 技術(shù)原理

        該項(xiàng)目研究基于機(jī)器視覺、深度學(xué)習(xí)、運(yùn)動(dòng)捕捉等技術(shù),通過Python編寫并實(shí)現(xiàn)相關(guān)算法。運(yùn)用嵌入式設(shè)備JetsonTX2,CMOS傳感器,攝像頭等搭建硬件系統(tǒng),進(jìn)而采集分析多種環(huán)境下的聾啞人手勢(shì)動(dòng)作及變化并進(jìn)行識(shí)別,借助已有的語音數(shù)據(jù)庫(kù),建立不同手勢(shì)與語音庫(kù)中語言的對(duì)應(yīng)關(guān)系,完成手勢(shì)到語音的自動(dòng)轉(zhuǎn)換,實(shí)現(xiàn)語音輸出。最終得到一款針對(duì)聾啞人的手語識(shí)別—語音交互系統(tǒng)。本系統(tǒng)技術(shù)路線以及相關(guān)硬件搭建如圖3所示。

        圖3 產(chǎn)品設(shè)備搭建圖示

        產(chǎn)品算法的構(gòu)建主要基于深度學(xué)習(xí)與機(jī)器視覺進(jìn)行。利用基于高斯混合模型的水平集手部輪廓提取算法與粒子濾波算法等,構(gòu)建視覺模塊架構(gòu)。又或通過Matting算法等進(jìn)行圖像邊緣銳化、斑點(diǎn)檢測(cè)和角點(diǎn)檢測(cè)等,解決傳統(tǒng)提取跟蹤方法帶來的精度問題,同時(shí)減小大數(shù)據(jù)流的存儲(chǔ)空間進(jìn)而降低成本。通過Python編寫并實(shí)現(xiàn)相關(guān)算法。

        結(jié)合高斯模糊、像素塊填充的經(jīng)典紋理合成與高維隱空間特征編碼等操作,對(duì)采集的圖片進(jìn)行去噪、消除敏感信息等處理,并構(gòu)建庫(kù)。將構(gòu)建好的圖片庫(kù)分為訓(xùn)練集與測(cè)試集,采用提取特征+快速搜索模式進(jìn)行圖像匹配,并對(duì)編寫的手勢(shì)匹配聚類模型進(jìn)行訓(xùn)練,實(shí)現(xiàn)機(jī)器學(xué)習(xí)。

        經(jīng)測(cè)試集校驗(yàn)精度后,調(diào)整全局匹配和局部匹配的關(guān)系,考慮采用多線程形式搭接語音包,從而使聚類編譯后的信號(hào)可以以語音形式輸出。

        建立基于剛性連桿結(jié)構(gòu)模型的手勢(shì)仿真,并模擬實(shí)際操作中的運(yùn)行流程,調(diào)用API對(duì)算法進(jìn)行模擬測(cè)試,調(diào)整不同光照等環(huán)境條件,以及虛擬仿生手的不同膚色特點(diǎn),對(duì)系統(tǒng)進(jìn)行參數(shù)微調(diào)。精度達(dá)到預(yù)期后,燒錄進(jìn)開發(fā)套件,并進(jìn)行線路搭接,嵌入到設(shè)備載體中,完成樣機(jī)的設(shè)計(jì)。

        2.1 運(yùn)動(dòng)手語捕捉

        (1)攝像機(jī)標(biāo)定:確定空間中人手表面各關(guān)節(jié)點(diǎn)的三維幾何位置與其在圖像中對(duì)應(yīng)點(diǎn)之間的關(guān)系,利用合適的攝像機(jī)標(biāo)定算法,提高機(jī)器視覺的魯棒性。

        (2)手勢(shì)圖像分割與特征提?。菏謩?shì)特征提取過程需減除背景,基于膚色分割算法對(duì)已有的手勢(shì)識(shí)別算法進(jìn)行改進(jìn),并利用合適的算法對(duì)圖像進(jìn)行二值化處理,使圖像轉(zhuǎn)化為一個(gè)包含完整信息但僅突出手勢(shì)信息的單一圖片。

        (3)手勢(shì)估計(jì)與跟蹤:利用水平集算法及其改進(jìn)分割圖像,配合適當(dāng)?shù)哪P蛯?duì)手部動(dòng)作的輪廓進(jìn)行提取和跟蹤,用均值漂移算法等跟蹤輪廓內(nèi)外的圖像特征分布。

        (4)手勢(shì)行為識(shí)別:使用適當(dāng)?shù)姆诸惼髯R(shí)別已有手語庫(kù)中的手勢(shì),力求提高識(shí)別率。

        2.2 圖像存儲(chǔ)

        得益于硬件的選型以及合理的圖像工具的選擇,高速大容量數(shù)據(jù)存儲(chǔ)器控制系統(tǒng)是以SATA接口為儲(chǔ)存介質(zhì)設(shè)計(jì)的控制器,Jetson TX2中提供了一個(gè)SD Card卡槽和一個(gè)SATA接口,用于擴(kuò)展存儲(chǔ)空間,因此選擇將Jetson TX2作為載體。圖像儲(chǔ)存流程如圖4所示。

        圖4 圖像存儲(chǔ)流程

        2.3 信號(hào)轉(zhuǎn)換交互

        信號(hào)轉(zhuǎn)換可將機(jī)器視覺已識(shí)別出的與手勢(shì)庫(kù)中對(duì)應(yīng)的圖像和語音庫(kù)中對(duì)應(yīng)的語音聯(lián)系起來。使用編碼器和譯碼器在類似于FPGA的平臺(tái)上搭建交互平臺(tái),手勢(shì)識(shí)別完成后傳入的二維矩陣信號(hào)通過遞歸、二分法等組成算法(如gram算法等),轉(zhuǎn)化為二進(jìn)制代碼,傳入語音系統(tǒng)后輸出。信號(hào)轉(zhuǎn)換流程如圖5所示。

        圖5 信號(hào)轉(zhuǎn)換流程

        2.4 語音識(shí)別及輸出

        將用編碼器和譯碼器轉(zhuǎn)換的二進(jìn)制代碼借助交互平臺(tái)輸入語音系統(tǒng),經(jīng)過單片機(jī)(如WTN5055)等設(shè)備后,按一定控制模式進(jìn)行語音編輯,翻譯為聲音信號(hào),通過揚(yáng)聲器等播報(bào)。語音識(shí)別及輸出流程如圖6所示。

        圖6 語音識(shí)別及輸出流程

        2.5 硬件系統(tǒng)的構(gòu)建

        本項(xiàng)目組將Jetson TX2,Kinect攝像頭等硬件進(jìn)行線路設(shè)計(jì)與組裝連接。包括系統(tǒng)架構(gòu)設(shè)計(jì)搭建、手勢(shì)檢測(cè)算法的硬件搭建、任意手形轉(zhuǎn)換語音的硬件搭建、語音系統(tǒng)的硬件搭建等。對(duì)所有需要用到的硬件(TX2等)進(jìn)行合理布局,制作能夠?qū)崿F(xiàn)本項(xiàng)目功能的硬件系統(tǒng)。

        圖7 硬件系統(tǒng)搭建

        2.6 庫(kù)的建立與補(bǔ)全

        (1)圖像庫(kù)的建立:搜集較為完備的手語圖像數(shù)據(jù)(標(biāo)準(zhǔn)手語),將已有資源導(dǎo)入庫(kù),使用適當(dāng)?shù)姆诸惼鲗?duì)于圖像進(jìn)行特征分類,與計(jì)算機(jī)運(yùn)用算法處理后的圖像相匹配,轉(zhuǎn)為二維矩陣的二進(jìn)制代碼。

        (2)語音庫(kù)的建立:搜集較為完備的語音數(shù)據(jù),將已有資源導(dǎo)入庫(kù),通過插入交互平臺(tái)的語音系統(tǒng)(單片機(jī)等部件)端口連接,運(yùn)行時(shí)與計(jì)算機(jī)識(shí)別結(jié)果相匹配。

        3 作品創(chuàng)新點(diǎn)

        本產(chǎn)品從八大維度進(jìn)行創(chuàng)新。

        (1)技術(shù):開創(chuàng)性提出六大算法,支持弱光等環(huán)境,實(shí)現(xiàn)高魯棒性算法支撐。

        (2)應(yīng)用:已研發(fā)面向聾啞人群的,包含《蔚藍(lán)時(shí)代》在內(nèi)的三款產(chǎn)品。將在未來5年內(nèi)實(shí)現(xiàn)1.0~5.0的更新。

        (3)產(chǎn)品:采用更加貼合生活用品形式的眼鏡作為載體,更加便攜;手語同傳,輕量級(jí)硬件。

        (4)集成:以本產(chǎn)品為突破口,將人工智能與助老助殘緊密結(jié)合,開創(chuàng)算法以及嵌入服務(wù)式設(shè)備,帶動(dòng)高科技助老助殘、人機(jī)交互、嵌入式醫(yī)療、儀器定制生產(chǎn)等領(lǐng)域的再發(fā)展,實(shí)現(xiàn)技術(shù)的消化吸收和再創(chuàng)新。

        (5)設(shè)計(jì):首次提出“內(nèi)核+”的設(shè)計(jì)理念,融入不同載體,在不改變用戶日常生活的情況下滿足多環(huán)境需求。

        (6)模式:“點(diǎn)面結(jié)合”進(jìn)行宣傳銷售。

        (7)服務(wù):定制化服務(wù),根據(jù)用戶職業(yè)和身份,量身打造語音包、手語庫(kù)(如方言、外語版),根據(jù)場(chǎng)合定制設(shè)備載體形態(tài);進(jìn)行“一對(duì)一”指導(dǎo)服務(wù),提供良好的用戶體驗(yàn)。

        (8)兼容性:增加定位、監(jiān)測(cè)、圖像識(shí)別等功能;提供耐高濕、高溫等特殊材料;多種載體形態(tài),進(jìn)一步擴(kuò)大兼容性。

        4 發(fā)展前景及市場(chǎng)空間

        自國(guó)家號(hào)召助老助殘以來,我國(guó)助老助殘創(chuàng)新項(xiàng)目大量涌入,在國(guó)家的大力關(guān)注和資金投入大背景下,助老助殘項(xiàng)目逐漸增多,但針對(duì)聾啞人的產(chǎn)品卻很少。而我們研發(fā)的這一產(chǎn)品填補(bǔ)了聾啞人語音交互系統(tǒng)的部分市場(chǎng)空缺,前景廣闊。

        由于產(chǎn)品開發(fā)地在北京朝陽(yáng)區(qū),在產(chǎn)品推廣初期,可以與朝陽(yáng)區(qū)殘聯(lián)以及朝陽(yáng)區(qū)的中國(guó)聾兒康復(fù)研究中心啟聰幼兒園建立合作意向,向他們銷售產(chǎn)品,待其試用無異常后,與殘聯(lián)達(dá)成合作,在殘聯(lián)的幫助下進(jìn)行推廣。

        根據(jù)調(diào)查,北京的聾啞人學(xué)校多集中在城區(qū),如西城區(qū)的北京第一聾人學(xué)校、北京第二聾人學(xué)校,海淀區(qū)的北京第三聾人學(xué)校,北京市健翔學(xué)校等。同時(shí)我們可以向大型商場(chǎng)、車站和機(jī)場(chǎng)推廣產(chǎn)品,由商場(chǎng)、車站、機(jī)場(chǎng)購(gòu)買產(chǎn)品,在其業(yè)務(wù)辦理窗口前放置產(chǎn)品,免費(fèi)提供給聾啞人使用。后期經(jīng)過產(chǎn)品的不斷改進(jìn)與推廣,期望產(chǎn)品可以覆蓋北京市場(chǎng)。而隨著用戶群的增加,潛在客戶也越來越多,市場(chǎng)占有率也將得到進(jìn)一步提升。

        猜你喜歡
        聾啞人手語手勢(shì)
        《小鸚鵡從教記》之得意忘形不聽勸
        挑戰(zhàn)!神秘手勢(shì)
        自然手語在聾人大學(xué)生手語中的使用調(diào)查研究——以南京特殊教育師范學(xué)院為例
        活力(2019年15期)2019-09-25 07:23:06
        V字手勢(shì)的由來
        體驗(yàn)10分鐘黑暗
        勝利的手勢(shì)
        多吉從師記
        快樂語文(2017年8期)2017-05-18 01:29:35
        奇怪的手語圖
        聾啞人犯罪管控研究
        奇怪的手語圖
        亚洲AV毛片无码成人区httP| 成年免费a级毛片免费看无码| 极品少妇被猛的白浆直喷白浆| 四虎国产精品永久在线无码| 亚洲五月七月丁香缴情| 国产影院一区二区在线| 人妻体内射精一区二区三区| 最近日本免费观看高清视频| 国产精品亚洲一区二区杨幂| 蜜桃视频网站在线免费观看| 日本人妻伦理在线播放| 蜜桃传媒免费在线观看| 亚洲精品国精品久久99热| 国产无遮挡又黄又爽又色| 亚洲黄色性生活一级片| 亚洲一区二区女优av| 国产激情视频在线观看大全| 日韩精品一区二区午夜成人版 | 久久久久久国产精品免费网站 | 国产一区二区黄色的网站| 成人精品视频一区二区| 成年人黄视频大全| 日韩av在线不卡观看| 国产精品一区二区黑丝| 国产免费av片在线观看| 亚洲电影中文字幕| 亚洲人妻御姐中文字幕| 欧美激情一区二区三区成人| 中文字幕精品无码一区二区| 中国免费一级毛片| 亚洲国产大胸一区二区三区| 亚洲爆乳无码精品aaa片蜜桃| 国产欧美日韩精品a在线观看| 久久精品国产只有精品96| 亚洲不卡av一区二区三区四区 | 欧美成人一区二区三区| 亚洲第一区无码专区| 亚洲av熟女中文字幕| 国模丽丽啪啪一区二区| 国产哟交泬泬视频在线播放| 成人爽a毛片免费网站中国|