亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        帶置信度的基于sEMG的無聲語音識(shí)別研究

        2020-09-29 07:51:13王鑫喬波楊夢(mèng)
        電腦知識(shí)與技術(shù) 2020年17期

        王鑫 喬波 楊夢(mèng)

        摘要:基于表面肌電信號(hào)(sEMG)的語音識(shí)別是通過面部放置的肌電信號(hào)傳感器采集生物電信號(hào)進(jìn)行處理識(shí)別,過程不依賴于聲學(xué)信號(hào), 可以避免外界噪聲的干擾,可提高強(qiáng)背景噪聲下通訊的準(zhǔn)確性、可靠性以及適應(yīng)場(chǎng)景條件的多變性,因此作為新的替代通訊方式在很多領(lǐng)域和場(chǎng)景被研究且應(yīng)用。因?yàn)樾盘?hào)時(shí)間軸不一致而無法直接利用機(jī)器學(xué)習(xí)算法進(jìn)行識(shí)別,本文提出了利用插值法來解決此問題。現(xiàn)有研究的識(shí)別結(jié)果沒有提供可信度評(píng)估,在高風(fēng)險(xiǎn)領(lǐng)域應(yīng)用不足,本文將一致性預(yù)測(cè)器(Conformal Predictors)應(yīng)用于基于表面肌電信號(hào)的孤立漢字無聲語音識(shí)別中,在提高了識(shí)別準(zhǔn)確率的同時(shí)為預(yù)測(cè)結(jié)果提供可靠性評(píng)估和保障。

        關(guān)鍵詞: 肌電信號(hào);無聲語音識(shí)別;置信度;插值算法;一致性預(yù)測(cè)器

        中圖分類號(hào):TN912.34 ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2020)17-0003-04

        Abstract:Silent speech recognition is based on the bioelectric signal collected by the sEMG sensor placed on the face, which is independent of the acoustic signal. It can avoid the interference of external noise, improve the accuracy and reliability of communication under strong background noise, and adapt to the variability of scene conditions. Therefore, as a new alternative communication method, it has been studied and applied in many fields and scenes. At present, the recognition of signal is based on the hidden Markov model, because the time axis of signal is inconsistent, so it can not directly utilize machine learning algorithms. This paper proposes an interpolation method to solve this problem. The existing research results do not provide confidence guarantee, and are insufficient in the high-risk field. In this paper, conformal predictors are applied to the isolated Chinese silent speech recognition based on sEMG signal, which improves the recognition accuracy and provides reliability evaluation and guarantee for the prediction results.

        Key words:sEMG signal; silent speech recognition; confidence measurement; interpolation algorithm; conformal predictor

        1概述

        近二十年來,自動(dòng)語音識(shí)別(Automatic Speech Recognition,ASR)在實(shí)際應(yīng)用中取得了令人滿意的發(fā)展,然而基于聲學(xué)信號(hào)的語音識(shí)別仍存在一些固有缺點(diǎn):(1)語音信號(hào)很容易被環(huán)境噪聲干擾,在背景噪音下的語音識(shí)別性能會(huì)顯著下降;(2) 聲學(xué)信號(hào)的采集過程很難保持隱私或保密;(3)不適用于發(fā)聲障礙人士。 表面肌電信號(hào)(surface electromyography,sEMG)是肌肉系統(tǒng)進(jìn)行隨意性和非隨意性活動(dòng)時(shí)產(chǎn)生的生物電變化經(jīng)表面電極引導(dǎo)、放大、顯示和記錄所獲得的一維電壓時(shí)間序列信號(hào),反映了神經(jīng)和肌肉系統(tǒng)的功能和生理狀態(tài),并且從人體皮膚表面獲取,不會(huì)對(duì)人體造成損傷,因此在多個(gè)領(lǐng)域獲得深入研究和廣泛應(yīng)用,例如疾病診斷、假肢控制、遠(yuǎn)程操作機(jī)器人、康復(fù)治療等[1]。話語聲音的產(chǎn)生是一系列喉部肌肉和面部肌肉蔟活動(dòng)協(xié)作完成的,肌肉的變化對(duì)應(yīng)不同的活動(dòng)狀態(tài),因此可以從表面肌電信號(hào)中提取特征進(jìn)行語言或語義識(shí)別,識(shí)別不依賴于聲學(xué)信號(hào),自然避免了噪音或其他聲波干擾,因此基于表面肌電信號(hào)的無聲語音識(shí)別作為強(qiáng)噪音下的替代通訊方式被廣泛應(yīng)用,如飛行員在強(qiáng)噪音駕駛艙中進(jìn)行指令控制[2],消防員在救火場(chǎng)景中與隊(duì)員或指揮中心進(jìn)行交互[3];基于肌電信號(hào)可以與語音信號(hào)同步采集,被研究用于為宇航員提供額外通訊方式[4];除此之外,因?yàn)檎f話人可以采用默讀的方式述說指令或語句,也可以用來實(shí)現(xiàn)高保密性的人-機(jī)或人-人交互[5]。

        雖然早在1985年肌電信號(hào)就被引入無聲語音識(shí)別的研究[6],但研究直到2001年才有突破性進(jìn)展,研究者比較了時(shí)域、傅里葉、小波包、小波變換四種特征提取方式,采用線性判別分析進(jìn)行分類進(jìn)行0-9數(shù)字的識(shí)別,平均識(shí)別率達(dá)到90%[2]。隨后針對(duì)大量以及連續(xù)信號(hào)的識(shí)別展開了許多的研究和實(shí)驗(yàn),并證明通過sEMG進(jìn)行連續(xù)語音識(shí)別是可能的[7]。Michael Wand等學(xué)者[8]建立了肌電信號(hào)數(shù)據(jù)庫(kù),由108 個(gè)詞匯組成的50個(gè)基本句子,平均每句話的字準(zhǔn)確率達(dá)到70%。 國(guó)內(nèi)的研究起步比較晚,2005年戴立梅等人將sEMG應(yīng)用于無聲語音識(shí)別領(lǐng)域,實(shí)現(xiàn)10個(gè)數(shù)字的識(shí)別,平均識(shí)別率達(dá)到85%。2019年金丹彤等人將深度學(xué)習(xí)應(yīng)用于漢語孤立詞的識(shí)別,對(duì)10個(gè)漢字得到80%的平均識(shí)別準(zhǔn)確率[9]。基于肌電信號(hào)的無聲語音識(shí)別一般包括信號(hào)預(yù)處理、肌肉活動(dòng)狀態(tài)檢測(cè)(分割),特征提取和識(shí)別四個(gè)步驟,目前的無聲語音信號(hào)識(shí)別多是基于隱馬爾可夫模型(HMM),但HMM模型的建立需要依賴一個(gè)較大的語音庫(kù),這在實(shí)際工作中占有很大的工作量,且模型需的存儲(chǔ)量和匹配計(jì)算的運(yùn)算量相對(duì)較大,雖然機(jī)器學(xué)習(xí)算法可解決此問題,但由于說話快慢的變化會(huì)使得信號(hào)的時(shí)間軸不一致,因此機(jī)器學(xué)習(xí)算法無法直接被應(yīng)用,只能與HMM一起建立混合模型實(shí)現(xiàn)。本文利用圖像識(shí)別領(lǐng)域常見的插值法解決了時(shí)間軸不一致性問題,使得機(jī)器學(xué)習(xí)算法可以直接應(yīng)用于無聲語音信號(hào)識(shí)別。在高風(fēng)險(xiǎn)領(lǐng)域,分類失敗將導(dǎo)致嚴(yán)重的后果,利用可信度可以對(duì)識(shí)別結(jié)果的可靠性進(jìn)行假設(shè)檢驗(yàn),定位識(shí)別錯(cuò)誤所在,提高系統(tǒng)的識(shí)別率和穩(wěn)健性[10][11]?;谵D(zhuǎn)導(dǎo)推理的一致性預(yù)測(cè) (Conformal Predictor,CP)是1998年Vovk等人[12]提出來一種基于柯爾莫戈洛夫(Kolmogorov)算法隨機(jī)性理論的域預(yù)測(cè)機(jī)器學(xué)習(xí)算法,可以對(duì)預(yù)測(cè)結(jié)果進(jìn)行可靠性評(píng)估和保障,本文將研究一致性預(yù)測(cè)器在基于肌電信號(hào)的孤立詞的無聲語音識(shí)別的應(yīng)用,通過線性判別分析(LDA)優(yōu)化特征后,10個(gè)漢字的分類識(shí)別準(zhǔn)確率達(dá)99%,且同時(shí)可輸出帶置信度評(píng)估的域預(yù)測(cè)結(jié)果,為后續(xù)連續(xù)詞識(shí)別提供支持。

        2 ?原理和方法

        本研究使用表面肌電信號(hào)進(jìn)行10個(gè)漢語單詞的孤立詞的識(shí)別,單詞選用日常會(huì)話中的最常用的漢字。言語是多種面部和其他肌肉活動(dòng)復(fù)雜結(jié)合的結(jié)果。根據(jù)解剖學(xué)研究[13],與言語相關(guān)活躍的肌肉數(shù)量很豐富,我們采用了先前研究中的電極位置[14],并進(jìn)行了一些實(shí)驗(yàn),確定使用五個(gè)通道捕捉肌肉信號(hào),分別為:顴骨主、提角肌、頸闊肌、外舌和二腹肌前腹,如圖1所示。電極使用標(biāo)準(zhǔn)的Ag/AgCl電極,使用NuAmps腦電放大器采集肌電信號(hào),采樣頻率為250HZ。為了減少噪音,在采集過程中關(guān)閉了所有不必要的電源。實(shí)驗(yàn)采集了2位男性同學(xué)的肌電信號(hào)。在實(shí)驗(yàn)中,受試者以重復(fù)的方式默讀詞匯表中的單詞,每個(gè)單詞讀20次,每個(gè)字之間有10秒的停頓,使肌肉得到充分休息。

        基于肌電信號(hào)的無聲語音識(shí)別一般包括信號(hào)預(yù)處理、肌肉活動(dòng)狀態(tài)檢測(cè)(分割),特征提取和識(shí)別,如圖2所示。本研究采用陷波濾波、帶通濾波和基線漂移對(duì)信號(hào)進(jìn)行預(yù)處理,然后手動(dòng)進(jìn)行信號(hào)分割,采用插值技術(shù)使信號(hào)長(zhǎng)度達(dá)到一致。特征提取的目的是用一組有效的數(shù)據(jù)描述原始肌電信號(hào)。本研究使用信號(hào)的時(shí)域信息作為特征,利用線性判別分析對(duì)特征進(jìn)行降維。分類識(shí)別步驟中對(duì)比了傳統(tǒng)的離線模式機(jī)器學(xué)習(xí)算法和在線學(xué)習(xí)模式的一致性預(yù)測(cè)器。

        3關(guān)鍵技術(shù)實(shí)現(xiàn)

        3.1 信號(hào)預(yù)處理與分割

        本研究采用陷波濾波、帶通濾波對(duì)信號(hào)進(jìn)行預(yù)處理。陷波濾波器(notch ?filter)用于消除普遍存在的電力線干擾。電力線干擾可以通過地面、空氣等介質(zhì)傳輸?shù)饺梭w,后由表面肌電信號(hào)采集裝置采集。由于表面肌電信號(hào)相對(duì)較弱,電力線干擾很可能造成嚴(yán)重的影響,掩蓋了表面肌電信號(hào)本身的特性。本研究使用自適應(yīng)陷波濾波器來恢復(fù)干擾,然后將其從被測(cè)信號(hào)中消除。經(jīng)研究電力線干擾被認(rèn)為是50赫茲正弦信號(hào)和50赫茲余弦信號(hào)的線性疊加[15],本系統(tǒng)采用自適應(yīng)算法調(diào)整兩個(gè)信號(hào)的權(quán)值,使誤差最小。sEMG的主要信息集中在20Hz-120Hz范圍內(nèi)。通過帶通濾波可以保持20Hz-120Hz的信號(hào),來消除電力線信號(hào)的高次諧波和其他環(huán)境噪聲。

        實(shí)驗(yàn)采用連續(xù)錄入的方式,對(duì)詞匯表的每一個(gè)單詞,用戶將重復(fù)說20次,所以一個(gè)記錄將包含20段有效信號(hào),需要將這些有效信號(hào)分割出來。盡管語音識(shí)別針對(duì)VAD(Voice Activity Detection)進(jìn)行了大量的研究,但基于sEMG的SAD(Speech Activity Detection)在許多方面是一個(gè)更為困難的問題,多個(gè)表面肌電通道的使用使問題更加復(fù)雜,因?yàn)榧∪馐湛s優(yōu)先于語音產(chǎn)生并提前時(shí)間不等, 很難定義語音相關(guān)活動(dòng)的開始和結(jié)束,而每個(gè)通道的言語活動(dòng)相關(guān)行為獨(dú)立又互相受影響。本論文采用人工分割的方式篩選出所有有效信號(hào)段,總共獲得1200多個(gè)樣本,如表1所示。

        3.2插值和特征提取

        由于用戶說話的快慢不同,導(dǎo)致有效信號(hào)的長(zhǎng)度不一,本研究采用插值方法來規(guī)整信號(hào)的長(zhǎng)度,通過對(duì)比最近鄰插值法、雙線性插值和雙三次插值的效果,最終采用雙線性插值將信號(hào)調(diào)整為每個(gè)通道370維的長(zhǎng)度。

        根據(jù)提取參數(shù)的方法不同,可以將信號(hào)分析分為:時(shí)域分析、頻域分析和時(shí)頻域分析。根據(jù)之前的研究,時(shí)域特征可以為識(shí)別提供足夠的信息,獲得更好的性能[16],本論文對(duì)信號(hào)進(jìn)行時(shí)域分析。肌電信號(hào)是具有非平穩(wěn)特性的生理電信號(hào),在短時(shí)間范圍內(nèi)可以認(rèn)為信號(hào)是穩(wěn)態(tài)的,為了描述sEMG信號(hào)隨時(shí)間變化的趨勢(shì),首先按照疊加窗技術(shù)進(jìn)行分幀處理。根據(jù)信號(hào)采樣率和實(shí)際分析的需要,我們?nèi)∶繋盘?hào)長(zhǎng)為30ms, 幀移為15ms,每幀信號(hào)加漢明窗以消除分幀帶來的幀信號(hào)邊緣的不連續(xù)性。接著提取幀內(nèi)的四個(gè)時(shí)域特征值,分別為短時(shí)平均幅度、短時(shí)能量、短時(shí)平均過零率、短時(shí)平均幅值差。 從采集的5個(gè)通道的信號(hào)中共提取460維特征值??紤]到高維相關(guān)的精度和計(jì)算問題,利用線性判別分析(Linear Discriminant Analysis,LDA)方法從460個(gè)特征中選擇了50個(gè)特征,該方法在腦組織分析[17]、語音識(shí)別[18]和人臉識(shí)別[19]等領(lǐng)域有著廣泛的應(yīng)用。

        3.3 一致性預(yù)測(cè)器

        3.3.1 一致性預(yù)測(cè)器原理

        一致性預(yù)測(cè)器基于樣本服從獨(dú)立同分布假設(shè)的假設(shè),預(yù)測(cè)過程可以采用在線學(xué)習(xí)的方式,過程中訓(xùn)練樣本集是不斷更新的,在對(duì)測(cè)試樣本完成預(yù)測(cè)后,將測(cè)試樣本和它的真實(shí)標(biāo)簽加入訓(xùn)練樣本序列中,使得訓(xùn)練可以從零樣本開始并逐步擴(kuò)充訓(xùn)練集;也可以采用傳統(tǒng)的機(jī)器學(xué)習(xí)的離線學(xué)習(xí)模式,即在固定的訓(xùn)練樣本集上訓(xùn)練模型。

        4 實(shí)驗(yàn)結(jié)果

        本論文分別使用傳統(tǒng)的分類算法K近鄰、隨機(jī)森林(RF)以及支持向量機(jī)(SVM)和CP-KNN、CP-SVM、CP-RF進(jìn)行無聲語音識(shí)別。在KNN中使用的距離是歐幾里德距離。支持向量機(jī)的核函數(shù)是線性函數(shù)。隨機(jī)森林中決策樹的數(shù)量為500。所有實(shí)驗(yàn)均在10倍交叉驗(yàn)證程序中進(jìn)行。

        4.1 單值預(yù)測(cè)結(jié)果

        實(shí)驗(yàn)先后使用460維全部特征和50維優(yōu)化特征進(jìn)行分類,對(duì)比了離線模式的CP-KNN、CP-SVM和CP-RF的單值預(yù)測(cè)結(jié)果和傳統(tǒng)的KNN、SVM和RF的預(yù)測(cè)結(jié)果,如表2所示。結(jié)果顯示,使用優(yōu)化后的50維特征在預(yù)測(cè)中有更好的性能。對(duì)比多有的分類器,采用CP-RF識(shí)別的準(zhǔn)確度最高,同時(shí)具有最大的可信度。

        4.2 域預(yù)測(cè)結(jié)果

        實(shí)驗(yàn)比較了三種CP分類器的在線模式下的域預(yù)測(cè)性能。為了比較不同顯著性水平的域預(yù)測(cè)的精確度,我們統(tǒng)計(jì)了標(biāo)簽集的元素個(gè)數(shù)的中值,如圖3所示。在顯著性水平為5%時(shí),CP-SVM的域預(yù)測(cè)的中值約為9,隨著顯著性水平的增加而減小。相較于CP-SVM,CP-1NN和CP-RF輸出精確度更高的域預(yù)測(cè),即中值為1,但當(dāng)顯著性水平增加時(shí),CP-RF的空預(yù)測(cè)增長(zhǎng)率最小,如圖4所示。

        5結(jié)論

        本研究實(shí)現(xiàn)了基于面部肌肉肌電信號(hào)的10個(gè)漢語孤立詞的無聲語音識(shí)別,通過使用插值技術(shù)解決信號(hào)時(shí)間軸不統(tǒng)一的問題,并將一致性預(yù)測(cè)器應(yīng)用于分類識(shí)別,為預(yù)測(cè)提供可靠性評(píng)估和保障。實(shí)驗(yàn)表明基于隨機(jī)森林的CP識(shí)別性能最好,在離線模式下分類精確度可達(dá)99.5%,可信度為99.8%,在線模式下,置信度水平為95%時(shí)仍可得到大量單一預(yù)測(cè)。證明一致性預(yù)測(cè)器可成功應(yīng)用于孤立漢語單詞識(shí)別。在今后的工作中可以探索如何利用CPs來提高漢語識(shí)別的魯棒性以及將小詞匯量孤立詞識(shí)別擴(kuò)展至連續(xù)詞識(shí)別進(jìn)而實(shí)現(xiàn)連續(xù)識(shí)別。

        參考文獻(xiàn):

        [1] MerlettiR,LoConteLR.Advances in processing of surface myoelectric signals:Part1[J].Medical andBiological Engineering and Computing, 1995,33(3):362-372.

        [2] Chan A D C,Englehart K,Hudgins B,etal.Myo-electric signals to augment speech recognition[J].Medical & Biological Engineering & Computing, 2001,39(4):500-504.

        [3] Betts B J,BinstedK,JorgensenC.Small-vocabulary speech recognition using surface electromyography[J].Interacting With Computers, 2006,18(6):1242-1259.

        [4] Jonas Dino. Ames Technology Capabilities and Facilities[EB/OL]. https://www.nasa.gov/centers/ames/research/technology-onepagers/human_senses.html

        [5] Kapur A , Kapur S , Maes P . AlterEgo: A Personalized Wearable Silent Speech Interface[C]// the 2018 Conference,2018.

        [6] Sugie N,Tsunoda K.A speech prosthesis employing a speech synthesizer-vowel discrimination from perioral muscle activities and vowel production[J].IEEE Transactions on BiomedicalEngineering, 1985,BME-32(7):485-490.

        [7] Lopez-Larraz E,Mozos O M,Antelis J M,et al.Syllable-based speech recognition using EMG[C]//2010AnnualInternational Conference of the IEEE Engineering in Medicine and Biology,August31-September 4, 2010. Buenos Aires. IEEE, 2010: 4699-4702.

        [8] Schultz T,WandM.Modeling coarticulation in EMG-based continuous speech recognition[J].Speech Communication, 2010,52(4):341-353.

        [9] 金丹彤. 基于表面肌電信號(hào)的無聲語音識(shí)別算法研究[D].浙江:浙江大學(xué),2019.

        [10] 劉鏡,劉加.置信度的原理及其在語音識(shí)別中的應(yīng)用[J].計(jì)算機(jī)研究與發(fā)展,2000,37(7):882-890.

        [11] Jiang H.Confidence measures for speech recognition:a survey[J].Speech Communication,2005,45(4):455-470.

        [12] Vovk V, Gammerman A,Shafer G.Algorithmic Learning in a Random World[J].2005:xvi.

        [13] Smith K K.Anelectromyographic study of the function of the jawadducting muscles inVaranusexanthematicus (Varanidae)[J].Journal of Morphology,1982,173(2):137-158.

        [14] Maier-Hein L,Metze F,SchultzT,et al.Session independent non-audible speech recognition using surface electromyography[C]//IEEE Workshop on Automatic Speech Recognition and Understanding,2005.,November 27, 2005.SanJuan,Puerto Rico. IEEE, 2005: 331-336.

        [15] Chan A DC,Englehart K,Hudgins B,etal.Myo-electric signals to augment speech recognition[J].Medical & Biological Engineering & Computing, 2001,39(4):500-504.

        [16] Schultz T, Walliczek M, Kraft F, et al. Towards Continuous Speech Recognition Using Surface Elec- tromyography. Bmj, 2006(29).

        [17] Sch?ferKC,Balog J,SzaniszlóT,etal.Real time analysis of brain tissueby direct combinationofultrasonicsurgical aspiration and sonic spray mass spectrometry[J].Analytical Chemistry, 2011,83(20):7729-7735.

        [18] Sakai M,Kitaoka N,Takeda K.Feature transformation based on discriminant analysis preserving local structure for speech recognition[C]//2009 IEEE International Conference on Acoustics,Speech and Signal Processing,April 19-24,2009. Taipei, Taiwan, China. IEEE, 2009: 3813-3816.

        [19] BelhumeurPN,HespanhaJP,KriegmanDJ.Eigenfaces vs.Fisherfaces:recognition using class specific linear projection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997,19(7):711-720.

        [20] Phinyomark A,HuH,Phukpattaranont P,etal.Application of linear discriminant analysis in dimensionality reduction for hand motion classification[J].Measurement Science Review, 2012,12(3):15-22.

        【通聯(lián)編輯:唐一東】

        中文字幕网伦射乱中文| 亚洲av男人免费久久| 美腿丝袜在线观看视频| 亚洲理论电影在线观看| 欧美aa大片免费观看视频| 久久一日本道色综合久久大香| 国产精品三级在线不卡| 人妻体内射精一区二区三区| 国产做a爱片久久毛片a片| 国模无码视频专区一区| 后入少妇免费在线观看| 人禽杂交18禁网站免费| 国产精品人妻一码二码尿失禁 | 亚洲男人在线天堂av| 一级r片内射视频播放免费| 国产98在线 | 日韩| 少妇无码av无码去区钱| 热综合一本伊人久久精品| 亚洲国产婷婷六月丁香| 中文字幕人妻av一区二区| 亚洲中文字幕久爱亚洲伊人| 精品黄色国产一区二区| 亚洲va欧美va日韩va成人网| 亚洲人成网站免费播放| 青青手机在线视频观看| 女同精品一区二区久久| 成人免费看片又大又黄| 成人亚洲欧美久久久久| 蜜臀人妻精品一区二区免费| 久久久久亚洲av无码专区喷水| 國产一二三内射在线看片| 美女扒开内裤露黑毛无遮挡 | 亚洲一区二区三区影院| 亚洲欧美精品伊人久久| 黑丝美女被内射在线观看| 丁香婷婷激情视频在线播放| 亚洲aⅴ在线无码播放毛片一线天 中国国语毛片免费观看视频 | 亚洲乱亚洲乱少妇无码99p| 精精国产xxxx视频在线播放器| 亚洲av色在线播放一区| 国产白袜脚足j棉袜在线观看|