亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于機(jī)器視覺的聾啞人手語識別
——語音交互系統(tǒng)

2021-12-14 02:47:10北京工業(yè)大學(xué)

物聯(lián)網(wǎng)技術(shù) 2021年12期

北京工業(yè)大學(xué)

王婧瑤，范飛，劉豪宇，蔣鈺雯

1 作品介紹

本項(xiàng)目旨在研究一款基于機(jī)器視覺的聾啞人手語識別—語音交互系統(tǒng)。將該系統(tǒng)集成在Jetson TX2開發(fā)板上，并嵌入設(shè)備載體，由用戶隨身攜帶，在不改變聾啞人生活方式的前提下，利用機(jī)器視覺以及深度學(xué)習(xí)等技術(shù)，為其與正常人更加便捷、高效的交流搭建友好的溝通平臺。

初代產(chǎn)品的終端形態(tài)擬構(gòu)建為智能眼鏡，如圖1所示。鏡架側(cè)面搭接雙目攝像頭，可以通過調(diào)節(jié)角度確定捕捉范圍。攝像頭后側(cè)鏡腿處，嵌入Jetson TX2開發(fā)套件，作為核心處理系統(tǒng)。另一側(cè)鏡腿上嵌入揚(yáng)聲器等元件作為語音模塊，輸出聲音信號。

圖1 初代產(chǎn)品示意圖

揚(yáng)聲器一側(cè)鏡腿處，設(shè)置有開關(guān)按鈕與音量鍵調(diào)節(jié)滾輪，以及藍(lán)牙與充電插孔。同時，該設(shè)備電源等原件，以及布線皆在鏡架內(nèi)部完成搭接。參數(shù)規(guī)格如圖2所示。

圖2 參數(shù)規(guī)格

使用說明：開啟設(shè)備鏡腿一側(cè)的開關(guān)按鈕，攝像頭處小燈亮起表明開始工作，揚(yáng)聲器一側(cè)滾輪滑動調(diào)節(jié)聲音大小。設(shè)備開啟后，可將開關(guān)按鈕撥動至中間檔位（共分為三檔，即開、關(guān)、中檔），即可暫時關(guān)閉實(shí)時捕捉功能，設(shè)備將進(jìn)入掛起狀態(tài)，保持最低功耗。將檔位撥動至“開”，即可繼續(xù)實(shí)現(xiàn)交互，完成交流。同時，按動左鏡腿第一個按鈕，小燈亮起，表示語音開始提取，對方回復(fù)將會通過藍(lán)牙傳至手機(jī)端，將語音轉(zhuǎn)為文字，便于用戶實(shí)時查看轉(zhuǎn)換結(jié)果。該設(shè)備可實(shí)現(xiàn)雙向交互，無交流障礙。

若需要重新設(shè)置系統(tǒng)參數(shù)，例如在特定場合需要加載專業(yè)語言包，又或者需要重新設(shè)置交流音色以及相應(yīng)頻率，只需利用設(shè)備攜帶的藍(lán)牙數(shù)據(jù)線連接電腦，登錄設(shè)備網(wǎng)站或者通過相關(guān)附帶插件進(jìn)行語音包擴(kuò)充、查看幫助文檔，從而對設(shè)備進(jìn)行重新設(shè)置。

后續(xù)也將推出擴(kuò)充定制語音包，用戶只需打開移動端的配套小程序或APP窗口，即可實(shí)現(xiàn)實(shí)時加載，適配多種環(huán)境與多種語言。

2 技術(shù)原理

該項(xiàng)目研究基于機(jī)器視覺、深度學(xué)習(xí)、運(yùn)動捕捉等技術(shù)，通過Python編寫并實(shí)現(xiàn)相關(guān)算法。運(yùn)用嵌入式設(shè)備JetsonTX2，CMOS傳感器，攝像頭等搭建硬件系統(tǒng)，進(jìn)而采集分析多種環(huán)境下的聾啞人手勢動作及變化并進(jìn)行識別，借助已有的語音數(shù)據(jù)庫，建立不同手勢與語音庫中語言的對應(yīng)關(guān)系，完成手勢到語音的自動轉(zhuǎn)換，實(shí)現(xiàn)語音輸出。最終得到一款針對聾啞人的手語識別—語音交互系統(tǒng)。本系統(tǒng)技術(shù)路線以及相關(guān)硬件搭建如圖3所示。

圖3 產(chǎn)品設(shè)備搭建圖示

產(chǎn)品算法的構(gòu)建主要基于深度學(xué)習(xí)與機(jī)器視覺進(jìn)行。利用基于高斯混合模型的水平集手部輪廓提取算法與粒子濾波算法等，構(gòu)建視覺模塊架構(gòu)。又或通過Matting算法等進(jìn)行圖像邊緣銳化、斑點(diǎn)檢測和角點(diǎn)檢測等，解決傳統(tǒng)提取跟蹤方法帶來的精度問題，同時減小大數(shù)據(jù)流的存儲空間進(jìn)而降低成本。通過Python編寫并實(shí)現(xiàn)相關(guān)算法。

結(jié)合高斯模糊、像素塊填充的經(jīng)典紋理合成與高維隱空間特征編碼等操作，對采集的圖片進(jìn)行去噪、消除敏感信息等處理，并構(gòu)建庫。將構(gòu)建好的圖片庫分為訓(xùn)練集與測試集，采用提取特征＋快速搜索模式進(jìn)行圖像匹配，并對編寫的手勢匹配聚類模型進(jìn)行訓(xùn)練，實(shí)現(xiàn)機(jī)器學(xué)習(xí)。

經(jīng)測試集校驗(yàn)精度后，調(diào)整全局匹配和局部匹配的關(guān)系，考慮采用多線程形式搭接語音包，從而使聚類編譯后的信號可以以語音形式輸出。

建立基于剛性連桿結(jié)構(gòu)模型的手勢仿真，并模擬實(shí)際操作中的運(yùn)行流程，調(diào)用API對算法進(jìn)行模擬測試，調(diào)整不同光照等環(huán)境條件，以及虛擬仿生手的不同膚色特點(diǎn)，對系統(tǒng)進(jìn)行參數(shù)微調(diào)。精度達(dá)到預(yù)期后，燒錄進(jìn)開發(fā)套件，并進(jìn)行線路搭接，嵌入到設(shè)備載體中，完成樣機(jī)的設(shè)計(jì)。

2.1 運(yùn)動手語捕捉

（1）攝像機(jī)標(biāo)定：確定空間中人手表面各關(guān)節(jié)點(diǎn)的三維幾何位置與其在圖像中對應(yīng)點(diǎn)之間的關(guān)系，利用合適的攝像機(jī)標(biāo)定算法，提高機(jī)器視覺的魯棒性。

（2）手勢圖像分割與特征提取：手勢特征提取過程需減除背景，基于膚色分割算法對已有的手勢識別算法進(jìn)行改進(jìn)，并利用合適的算法對圖像進(jìn)行二值化處理，使圖像轉(zhuǎn)化為一個包含完整信息但僅突出手勢信息的單一圖片。

（3）手勢估計(jì)與跟蹤：利用水平集算法及其改進(jìn)分割圖像，配合適當(dāng)?shù)哪Ｐ蛯κ植縿幼鞯妮喞M(jìn)行提取和跟蹤，用均值漂移算法等跟蹤輪廓內(nèi)外的圖像特征分布。

（4）手勢行為識別：使用適當(dāng)?shù)姆诸惼髯R別已有手語庫中的手勢，力求提高識別率。

2.2 圖像存儲

得益于硬件的選型以及合理的圖像工具的選擇，高速大容量數(shù)據(jù)存儲器控制系統(tǒng)是以SATA接口為儲存介質(zhì)設(shè)計(jì)的控制器，Jetson TX2中提供了一個SD Card卡槽和一個SATA接口，用于擴(kuò)展存儲空間，因此選擇將Jetson TX2作為載體。圖像儲存流程如圖4所示。

圖4 圖像存儲流程

2.3 信號轉(zhuǎn)換交互

信號轉(zhuǎn)換可將機(jī)器視覺已識別出的與手勢庫中對應(yīng)的圖像和語音庫中對應(yīng)的語音聯(lián)系起來。使用編碼器和譯碼器在類似于FPGA的平臺上搭建交互平臺，手勢識別完成后傳入的二維矩陣信號通過遞歸、二分法等組成算法（如gram算法等），轉(zhuǎn)化為二進(jìn)制代碼，傳入語音系統(tǒng)后輸出。信號轉(zhuǎn)換流程如圖5所示。

圖5 信號轉(zhuǎn)換流程

2.4 語音識別及輸出

將用編碼器和譯碼器轉(zhuǎn)換的二進(jìn)制代碼借助交互平臺輸入語音系統(tǒng)，經(jīng)過單片機(jī)（如WTN5055）等設(shè)備后，按一定控制模式進(jìn)行語音編輯，翻譯為聲音信號，通過揚(yáng)聲器等播報(bào)。語音識別及輸出流程如圖6所示。

圖6 語音識別及輸出流程

2.5 硬件系統(tǒng)的構(gòu)建

本項(xiàng)目組將Jetson TX2，Kinect攝像頭等硬件進(jìn)行線路設(shè)計(jì)與組裝連接。包括系統(tǒng)架構(gòu)設(shè)計(jì)搭建、手勢檢測算法的硬件搭建、任意手形轉(zhuǎn)換語音的硬件搭建、語音系統(tǒng)的硬件搭建等。對所有需要用到的硬件（TX2等）進(jìn)行合理布局，制作能夠?qū)崿F(xiàn)本項(xiàng)目功能的硬件系統(tǒng)。

圖7 硬件系統(tǒng)搭建

2.6 庫的建立與補(bǔ)全

（1）圖像庫的建立：搜集較為完備的手語圖像數(shù)據(jù)（標(biāo)準(zhǔn)手語），將已有資源導(dǎo)入庫，使用適當(dāng)?shù)姆诸惼鲗τ趫D像進(jìn)行特征分類，與計(jì)算機(jī)運(yùn)用算法處理后的圖像相匹配，轉(zhuǎn)為二維矩陣的二進(jìn)制代碼。

（2）語音庫的建立：搜集較為完備的語音數(shù)據(jù)，將已有資源導(dǎo)入庫，通過插入交互平臺的語音系統(tǒng)（單片機(jī)等部件）端口連接，運(yùn)行時與計(jì)算機(jī)識別結(jié)果相匹配。

3 作品創(chuàng)新點(diǎn)

本產(chǎn)品從八大維度進(jìn)行創(chuàng)新。

（1）技術(shù)：開創(chuàng)性提出六大算法，支持弱光等環(huán)境，實(shí)現(xiàn)高魯棒性算法支撐。

（2）應(yīng)用：已研發(fā)面向聾啞人群的，包含《蔚藍(lán)時代》在內(nèi)的三款產(chǎn)品。將在未來5年內(nèi)實(shí)現(xiàn)1.0～5.0的更新。

（3）產(chǎn)品：采用更加貼合生活用品形式的眼鏡作為載體，更加便攜；手語同傳，輕量級硬件。

（4）集成：以本產(chǎn)品為突破口，將人工智能與助老助殘緊密結(jié)合，開創(chuàng)算法以及嵌入服務(wù)式設(shè)備，帶動高科技助老助殘、人機(jī)交互、嵌入式醫(yī)療、儀器定制生產(chǎn)等領(lǐng)域的再發(fā)展，實(shí)現(xiàn)技術(shù)的消化吸收和再創(chuàng)新。

（5）設(shè)計(jì)：首次提出“內(nèi)核+”的設(shè)計(jì)理念，融入不同載體，在不改變用戶日常生活的情況下滿足多環(huán)境需求。

（6）模式：“點(diǎn)面結(jié)合”進(jìn)行宣傳銷售。

（7）服務(wù)：定制化服務(wù)，根據(jù)用戶職業(yè)和身份，量身打造語音包、手語庫（如方言、外語版），根據(jù)場合定制設(shè)備載體形態(tài)；進(jìn)行“一對一”指導(dǎo)服務(wù)，提供良好的用戶體驗(yàn)。

（8）兼容性：增加定位、監(jiān)測、圖像識別等功能；提供耐高濕、高溫等特殊材料；多種載體形態(tài)，進(jìn)一步擴(kuò)大兼容性。

4 發(fā)展前景及市場空間

自國家號召助老助殘以來，我國助老助殘創(chuàng)新項(xiàng)目大量涌入，在國家的大力關(guān)注和資金投入大背景下，助老助殘項(xiàng)目逐漸增多，但針對聾啞人的產(chǎn)品卻很少。而我們研發(fā)的這一產(chǎn)品填補(bǔ)了聾啞人語音交互系統(tǒng)的部分市場空缺，前景廣闊。

由于產(chǎn)品開發(fā)地在北京朝陽區(qū)，在產(chǎn)品推廣初期，可以與朝陽區(qū)殘聯(lián)以及朝陽區(qū)的中國聾兒康復(fù)研究中心啟聰幼兒園建立合作意向，向他們銷售產(chǎn)品，待其試用無異常后，與殘聯(lián)達(dá)成合作，在殘聯(lián)的幫助下進(jìn)行推廣。

根據(jù)調(diào)查，北京的聾啞人學(xué)校多集中在城區(qū)，如西城區(qū)的北京第一聾人學(xué)校、北京第二聾人學(xué)校，海淀區(qū)的北京第三聾人學(xué)校，北京市健翔學(xué)校等。同時我們可以向大型商場、車站和機(jī)場推廣產(chǎn)品，由商場、車站、機(jī)場購買產(chǎn)品，在其業(yè)務(wù)辦理窗口前放置產(chǎn)品，免費(fèi)提供給聾啞人使用。后期經(jīng)過產(chǎn)品的不斷改進(jìn)與推廣，期望產(chǎn)品可以覆蓋北京市場。而隨著用戶群的增加，潛在客戶也越來越多，市場占有率也將得到進(jìn)一步提升。