亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于循環(huán)神經(jīng)網(wǎng)絡(luò)的雙耳助聽器語(yǔ)音增強(qiáng)算法*

        2021-11-12 12:06:36朱亞濤張雨晨
        傳感技術(shù)學(xué)報(bào) 2021年9期
        關(guān)鍵詞:雙耳助聽器頻帶

        朱亞濤,陳 霏,2*,張雨晨,陶 源

        (1.天津市成像與感知微電子技術(shù)重點(diǎn)實(shí)驗(yàn)室,天津大學(xué)微電子學(xué)院,天津 300072;2.深圳清華大學(xué)研究院,廣東 深圳 518057;3.北京大學(xué)深圳醫(yī)院耳鼻喉科,廣東 深圳 518036)

        世界上超過5%的人口患有聽力障礙,其中4.32億為成年人[1]。聽力損失患者與他人交流的能力受限使他們被排斥在交流之外,從而產(chǎn)生孤獨(dú)感和沮喪感,尤其是對(duì)老年聽力受損者而言[2]。助聽器可以幫助使用者提高聽力水平,從而解決上述問題。助聽器內(nèi)部的語(yǔ)音增強(qiáng)算法直接影響助聽器補(bǔ)償患者聽力損失的準(zhǔn)確度和獲取語(yǔ)音的舒適程度[3]。譜減法[4-5]是助聽器中最常用的方法,也是最容易實(shí)現(xiàn)的較為有效的語(yǔ)音增強(qiáng)方法。該算法可以有效的抑制噪聲成分,但是當(dāng)欠估計(jì)噪聲功率譜時(shí)會(huì)殘留較多的音樂噪聲,過估計(jì)噪聲功率譜時(shí)又會(huì)導(dǎo)致語(yǔ)音失真。維納濾波法[6]可以看做是譜減法的衍生算法,且可以有效的減小音樂噪聲的出現(xiàn),但是對(duì)于非平穩(wěn)噪聲的衰減能力較弱且比較容易引入一定程度的語(yǔ)音失真[7]。即傳統(tǒng)的語(yǔ)音增強(qiáng)方法對(duì)平穩(wěn)噪聲具有良好的抑制效果,但是對(duì)于非平穩(wěn)噪聲的處理效果較差。

        隨著機(jī)器學(xué)習(xí)的發(fā)展和成熟,基于神經(jīng)網(wǎng)絡(luò)(Neural network,NN)的語(yǔ)音增強(qiáng)方法表現(xiàn)出更好的性能。Valin基于對(duì)傳統(tǒng)譜減法的研究,通過使用深度學(xué)習(xí)來代替?zhèn)鹘y(tǒng)方法中難以正確調(diào)整的噪聲估算器部分,提出了一種對(duì)全頻帶實(shí)時(shí)處理的深度學(xué)習(xí)方法,且可以獲得比傳統(tǒng)的最小均方誤差頻譜估計(jì)器更好的處理效果[8]。雖然Valin通過精簡(jiǎn)NN使其算法可以應(yīng)用于移動(dòng)或嵌入式設(shè)備中,但其提取特征的方法和規(guī)模還是相對(duì)復(fù)雜,難以應(yīng)用于體積微小的助聽器設(shè)備。張等人將多頻段的對(duì)數(shù)功率譜作為NN的輸入,以此提出了一種結(jié)合子帶譜熵法和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)的助聽器語(yǔ)音增強(qiáng)算法,并在非平穩(wěn)噪聲環(huán)境中獲得了較好的語(yǔ)音增強(qiáng)效果[9]。上述方法均為單通道語(yǔ)音增強(qiáng)算法,沒有考慮語(yǔ)音的空間信息。

        事實(shí)證明,對(duì)帶噪語(yǔ)音的雙耳處理比在每個(gè)耳朵獨(dú)立處理更有效[10]。根據(jù)Kochkin的研究表明,80%以上的聽力損失患者的雙耳都受到聽力能力下降的影響,因此需要同時(shí)使用兩個(gè)助聽器[11]。雙側(cè)助聽器(左、右耳設(shè)備獨(dú)立工作)不能保留原始語(yǔ)音的空間信息,導(dǎo)致佩戴者無(wú)法定位和追蹤聲源[12]。雙耳算法結(jié)合雙耳語(yǔ)音進(jìn)行處理,不僅可以獲得更好的語(yǔ)音處理效果,還可以保留雙耳線索,如聽覺之間的時(shí)間差和水平差。Zermini結(jié)合雙耳語(yǔ)音提取NN的輸入特征用于語(yǔ)音分離[13],通過訓(xùn)練一個(gè)NN來估算包括耳間水平差(interaural level difference,ILD)、耳間相位差(interaural phase difference,IPD)和對(duì)數(shù)功率譜(log power spectrum,LPS)在內(nèi)的特征和各頻段聲源方向概率之間的映射關(guān)系,然后得到軟掩碼并乘以雙耳混合譜圖進(jìn)行分離,且獲得了更好的分離效果。大多數(shù)基于NN的語(yǔ)音處理算法主要應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域,這些算法的網(wǎng)絡(luò)規(guī)模巨大,難以應(yīng)用于有實(shí)時(shí)性和低功耗要求的助聽器等微型可穿戴設(shè)備。

        針對(duì)上述問題,本文結(jié)合雙耳助聽器提出了一種小規(guī)模的RNN用于實(shí)現(xiàn)雙輸入雙輸出的語(yǔ)音增強(qiáng)算法,使得雙耳助聽器可以協(xié)同工作從而獲得更好的性能。本文的其余部分組織如下。第二節(jié)介紹雙耳語(yǔ)音增強(qiáng)模型,并簡(jiǎn)述其實(shí)現(xiàn)流程。第三節(jié)介紹基于RNN實(shí)現(xiàn)雙耳語(yǔ)音增強(qiáng)算法的關(guān)鍵部分,包括特征提取和RNN網(wǎng)絡(luò)結(jié)構(gòu)。第四節(jié)介紹了實(shí)驗(yàn)設(shè)置和實(shí)驗(yàn)結(jié)果。最后,第五節(jié)對(duì)全文進(jìn)行了總結(jié)。

        1 雙耳語(yǔ)音增強(qiáng)模型

        本文提出了一種基于RNN的雙耳助聽器語(yǔ)音增強(qiáng)算法(簡(jiǎn)記為BRNN)。該算法的設(shè)計(jì)原理如圖1所示,主要分為特征提取部分、RNN網(wǎng)絡(luò)部分和語(yǔ)音合成輸出部分,圖中省略了加窗處理部分,輸入輸出語(yǔ)音均為連續(xù)處理過程中的一窗語(yǔ)音。

        圖1 雙耳語(yǔ)音增強(qiáng)算法的結(jié)構(gòu)圖

        第一部分主要是對(duì)雙耳語(yǔ)音進(jìn)行預(yù)處理然后提取雙耳語(yǔ)音特征作為RNN網(wǎng)絡(luò)的輸入。首先,對(duì)時(shí)域的雙耳語(yǔ)音進(jìn)行快速傅里葉變換(fast Fourier transform,F(xiàn)FT)處理,得到頻域信號(hào)(XL,XR);然后按梅爾尺度將頻譜劃分為16個(gè)頻帶(XL(i)、XR(i))。最后,對(duì)每個(gè)頻帶進(jìn)行處理得到32維梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficient,MFCC)作為雙耳語(yǔ)音信號(hào)的振幅特征,左右耳語(yǔ)音信號(hào)對(duì)應(yīng)頻帶之間的IPD被提取作為雙耳語(yǔ)音信號(hào)的相位特征(16維),因此一次處理獲得48維的特征向量。第二部分使用雙輸入雙輸出RNN計(jì)算每個(gè)頻帶的輸出增益(gL(i),gR(i))。通過使用大量的語(yǔ)音數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到一個(gè)可以正確映射輸入特征向量和各頻帶輸出增益的RNN模型。第三部分是合成并輸出增強(qiáng)語(yǔ)音。利用第二部分得到的頻帶增益對(duì)帶噪頻譜進(jìn)行頻域上的加權(quán)合成,得到增強(qiáng)頻譜。通過快速傅里葉逆變換(IFFT)將增強(qiáng)的頻域信號(hào)轉(zhuǎn)化為時(shí)域信號(hào),從而得到綜合輸出的雙耳增強(qiáng)語(yǔ)音。

        2 雙耳語(yǔ)音增強(qiáng)算法

        2.1 雙耳語(yǔ)音特征提取

        如何建立帶噪語(yǔ)音和目標(biāo)語(yǔ)音之間的映射關(guān)系,尤其是在復(fù)雜的聲場(chǎng)環(huán)境中,是解決語(yǔ)音識(shí)別和語(yǔ)音增強(qiáng)的關(guān)鍵。在兩個(gè)麥克風(fēng)的近距離通話系統(tǒng)中,頭掩蔽效應(yīng)導(dǎo)致左耳和右耳麥克風(fēng)信號(hào)之間的ILD和ITD的差異較為明顯。因此,這兩種聽覺特征常被用來作為區(qū)別目標(biāo)語(yǔ)音和噪聲的重要線索[14]。但是考慮到雙耳助聽器正前方聲源到達(dá)左右耳的語(yǔ)音信號(hào)的ILD和ITD近似為零,按照上述方法提取特征對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練具有一定的局限性,因此本文創(chuàng)新性的將語(yǔ)音振幅特征MFCC和包含雙耳語(yǔ)音線索的相位特征IPD相結(jié)合,在時(shí)頻單元中提取這兩類特征作為RNN網(wǎng)絡(luò)的輸入。

        對(duì)采樣頻率為16 kHz的雙耳帶噪語(yǔ)音使用窗長(zhǎng)為16 ms的Vorbis窗進(jìn)行處理,連續(xù)幀之間的重疊度為50%,幀移為8 ms。所用的Vorbis窗函數(shù)定義為:

        式中,n表示采樣點(diǎn)數(shù),N表示窗口長(zhǎng)度。

        為了減少輸入特征的規(guī)模,降低計(jì)算復(fù)雜度,本文使用更符合人耳聽覺特性的梅爾頻率尺度將每幀語(yǔ)音分為16個(gè)頻帶,然后提取特征。梅爾頻率尺度是語(yǔ)音處理中廣泛應(yīng)用的頻率映射感知模型,它描述了音高感知的非線性映射,定義為:

        式中,M表示以Mel為單位的感知頻率,f表示以Hz為單位的實(shí)際頻率。

        本文首先將感知頻率平均分為16個(gè)頻帶,根據(jù)式(2)即可以得到對(duì)應(yīng)的實(shí)際頻率范圍,從而實(shí)現(xiàn)頻譜的劃分。對(duì)于輸入的雙耳語(yǔ)音,本文通過以下步驟到語(yǔ)音振幅相關(guān)的MFCC特征:①使用Vorbis窗截取左右耳各16 ms的帶噪語(yǔ)音(mixSL、mixSR);②對(duì)mixSL和mixSR進(jìn)行FFT處理,得到頻域信號(hào)XL和XR;③按照上文所述頻帶劃分的方法將XL和XR分別劃分為16個(gè)頻帶,從而得到第i個(gè)頻帶的頻域信號(hào)XL(i)和XR(i);④計(jì)算左右耳每個(gè)頻帶的能量EL(i)和ER(i)。設(shè)第i頻帶k頻率處的能量權(quán)重為ρi(k),我們有,因此,頻帶i的能量可以由式(3)得到;⑤然后將功率譜映射到對(duì)數(shù)功率譜,最后做離散余弦變換得到我們需要的MFCC。

        與文獻(xiàn)[15]中IPD的計(jì)算方法不同,本文根據(jù)同頻率下兩個(gè)信號(hào)的互相關(guān)函數(shù)值與相位差的關(guān)系,簡(jiǎn)化了相位特征的提取方法。首先,計(jì)算左右耳信號(hào)頻帶i的自相關(guān)函數(shù)值RLL(i)、RRR(i)。然后,計(jì)算左右耳信號(hào)對(duì)應(yīng)頻帶的互相關(guān)函數(shù)值RLR(i)。最后,由式(4)計(jì)算出IPD。

        我們利用帶噪語(yǔ)音和目標(biāo)語(yǔ)音之間的關(guān)系定義左右耳語(yǔ)音各頻帶的增益gL(i)、gR(i)作為輸出特征,公式如下:

        式中,EsL/R(i)表示左耳或右耳目標(biāo)語(yǔ)音的能量,ExL/R(i)左耳或右耳帶噪語(yǔ)音的能量。

        2.2 RNN網(wǎng)絡(luò)結(jié)構(gòu)

        語(yǔ)音的時(shí)間順序是語(yǔ)音增強(qiáng)中十分重要的線索,因此本文使用可對(duì)序列數(shù)據(jù)進(jìn)行建模的RNN來實(shí)現(xiàn)語(yǔ)音增強(qiáng)網(wǎng)絡(luò)的設(shè)計(jì)。RNN通過將前一時(shí)刻的輸出作為當(dāng)前時(shí)刻輸入的一部分來影響當(dāng)前時(shí)刻的輸出,以此來反映輸入數(shù)據(jù)的時(shí)間關(guān)系。簡(jiǎn)單RNN存在梯度消失或梯度爆炸等問題。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long shortterm memory,LSTM)及門控循環(huán)單元(Gated Recurrent Unit,GRU)。是簡(jiǎn)單RNN的改進(jìn)結(jié)構(gòu),目前應(yīng)用廣泛。GRU是Cho等人在2014年提出的一種改進(jìn)的LSTM算法[16],主要是將遺忘門和輸入門合并成為一個(gè)更新門,同時(shí)合并數(shù)據(jù)單元狀態(tài)和隱藏狀態(tài),從而使得GRU結(jié)構(gòu)比LSTM更為簡(jiǎn)單且具有更好的長(zhǎng)序列數(shù)據(jù)處理能力。為了節(jié)省計(jì)算資源并更好的利用語(yǔ)音的上下文關(guān)系,本文采用GRU來構(gòu)建網(wǎng)絡(luò)。本文設(shè)計(jì)了如圖2所示的雙輸入雙輸出RNN模型結(jié)構(gòu),且為了突出MFCC和IPD兩類輸入特征,構(gòu)建了振幅特征處理區(qū)和相位特征處理區(qū),即首先分開處理MFCC和IPD特征,然后在一并輸入到混合特征處理區(qū)進(jìn)行處理,從而實(shí)現(xiàn)更好的語(yǔ)音增強(qiáng)效果。該網(wǎng)絡(luò)由Dense層和GRU層組成,圖2中標(biāo)注了每層網(wǎng)絡(luò)使用的激活函數(shù)類型和包含的神經(jīng)元數(shù)。與傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)相比,本文將一些不相鄰的層相互連接起來,使部分層的一些神經(jīng)元可以更直接地處理特征。

        圖2 雙輸入雙輸出RNN結(jié)構(gòu)示意圖

        Tensorflow為NN訓(xùn)練和推理提供了強(qiáng)大的支持,在機(jī)器學(xué)習(xí)研究中得到了廣泛的應(yīng)用??紤]到tensorflow建模方便、運(yùn)行速度快的優(yōu)點(diǎn),本文采用tensorflow建立訓(xùn)練網(wǎng)絡(luò)[17]。NN訓(xùn)練時(shí)需要大量的數(shù)據(jù)來確保得到可靠的網(wǎng)絡(luò)模型,為此本文提取了5千萬(wàn)幀語(yǔ)音特征用于訓(xùn)練,訓(xùn)練過程中采用梯度下降法對(duì)每次迭代后的網(wǎng)絡(luò)權(quán)值進(jìn)行修正。訓(xùn)練過程中使用的損失函數(shù)為均方誤差函數(shù)(Mean Square Error,MSE):

        式中,g代表每個(gè)頻帶的輸出特征,^g代表網(wǎng)絡(luò)估計(jì)得到的每個(gè)頻帶的輸出增益,i為頻帶數(shù)。左右耳語(yǔ)音增益的損失權(quán)重均為0.8,左右耳輸出增益的性能評(píng)估函數(shù)均為交叉熵函數(shù)(my_crossentropy,MC):

        本文使用的神經(jīng)網(wǎng)絡(luò)進(jìn)行了500次迭代訓(xùn)練,圖3為訓(xùn)練過程中損失結(jié)果的變化曲線。從圖中可以看出,隨著訓(xùn)練次數(shù)的增加,損失結(jié)果逐漸變小,并趨于平穩(wěn)。因此,我們得出該網(wǎng)絡(luò)的訓(xùn)練是收斂的。

        圖3 訓(xùn)練期間RNN網(wǎng)絡(luò)損失函數(shù)的變化曲線

        3 實(shí)驗(yàn)設(shè)置和結(jié)果分析

        3.1 雙耳語(yǔ)音構(gòu)造及實(shí)驗(yàn)設(shè)置

        為了豐富訓(xùn)練集從而保證RNN更好的工作,本文將純凈語(yǔ)音和噪聲隨機(jī)混合,生成不同SNR的帶噪語(yǔ)音。本文使用的純凈語(yǔ)音來自清華大學(xué)中文語(yǔ)料庫(kù)THCHS-30[18]。該語(yǔ)料庫(kù)是在安靜的辦公環(huán)境中由40位母語(yǔ)為漢語(yǔ)的人參與錄制生成,其使用的文本摘自新聞稿中的1 000個(gè)短句,語(yǔ)音采樣頻率為16 kHz,采樣大小為16 bits。噪聲數(shù)據(jù)則是來自NOISEX92庫(kù)[19],庫(kù)中含有16種噪聲,其采樣頻率為19.98 kHz,采樣大小為16 bits。使用前需將噪聲采樣頻率下采樣至16 kHz。實(shí)驗(yàn)中使用的不同到達(dá)方向的目標(biāo)語(yǔ)音和噪聲由上述語(yǔ)料與MIT媒體實(shí)驗(yàn)室測(cè)得的頭部相關(guān)傳遞函數(shù)(head related transfer function,HRTF)進(jìn)行線性卷積合成[20]。

        圖4為模擬產(chǎn)生雙耳麥克風(fēng)信號(hào)的實(shí)驗(yàn)設(shè)置圖,目標(biāo)語(yǔ)音和噪聲都位于距離假人頭1.4 m的圓周上,且都在同一水平面上??紤]到助聽器使用者在交流時(shí)總是面對(duì)說話者,因此本文主要研究目標(biāo)語(yǔ)音到達(dá)方向?yàn)檎胺?0°)的情況。在實(shí)驗(yàn)環(huán)境中,目標(biāo)語(yǔ)音固定在0°,噪聲可以位于不同方位角。訓(xùn)練噪聲放置在圖4所示的圓周上,范圍為0°~360°,步距為5°,共有72個(gè)到達(dá)方向。測(cè)試時(shí),選取0°、45°、90°、135°和180°5個(gè)噪聲位置進(jìn)行測(cè)試。

        圖4 雙耳語(yǔ)音構(gòu)造圖

        在應(yīng)用場(chǎng)景中,除了目標(biāo)語(yǔ)音外,還會(huì)有環(huán)境噪聲。因此,麥克風(fēng)收集的語(yǔ)音信號(hào)通常都是帶噪語(yǔ)音。雙耳麥克風(fēng)在t時(shí)刻采集到的語(yǔ)音信號(hào)可以表示為:

        式中,s(t)表示目標(biāo)語(yǔ)音,SL(t)、SR(t)分別表示左右耳麥克風(fēng)接收集的目標(biāo)語(yǔ)音,n(t)表示噪聲,NL(t)和NR(t)分別代表左右耳麥克風(fēng)收集的噪聲。hL、hR分別表示左右耳的HRTF,?表示線性卷積運(yùn)算。

        3.2 語(yǔ)音增強(qiáng)的客觀評(píng)價(jià)

        THCHS-30庫(kù)中未用于訓(xùn)練的語(yǔ)音被用來測(cè)試BRNN算法的語(yǔ)音增強(qiáng)效果。根據(jù)圖3中的雙耳語(yǔ)音模型,在0°的目標(biāo)語(yǔ)音和不同方位角位置的噪聲被創(chuàng)建。為了比較本文提出的BRNN算法的語(yǔ)音增強(qiáng)效果,本文還測(cè)試了助聽器常用的語(yǔ)音增強(qiáng)算法對(duì)測(cè)試語(yǔ)音的增強(qiáng)效果,包括兩種頻譜減法(SS[3],MBAND[4])和一種基于維納濾波的方法(wiener_wt[7])。此外,我們還比較了可用于視頻會(huì)議設(shè)備中的基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的語(yǔ)音增強(qiáng)算法(Rnnoise[8])。在本文中,我們用信噪比(Signal-to-noise ratio,SNR)和短時(shí)客觀可懂度[21](Short-time objective intelligibility,STOI)來客觀評(píng)價(jià)BRNN算法對(duì)car噪聲、volvo噪聲和babble噪聲環(huán)境中的帶噪語(yǔ)音的增強(qiáng)效果。其中STOI是基于純凈語(yǔ)音和帶噪語(yǔ)音的時(shí)間包絡(luò)相關(guān)系數(shù)計(jì)算得到,且與主觀語(yǔ)音可懂度正相關(guān),其取值范圍為[0,1]。首先排除靜音幀,因?yàn)闊o(wú)聲段對(duì)于語(yǔ)音可懂度沒有影響;然后對(duì)語(yǔ)音信號(hào)進(jìn)行傅里葉變換的1/3倍頻帶分解;最后通過相關(guān)過程計(jì)算得到STOI。具體計(jì)算過程如圖5所示。

        圖5 STOI的計(jì)算流程

        圖6顯示了不同方法在不同聲壓級(jí)的噪聲環(huán)境中的語(yǔ)音處理結(jié)果,用于測(cè)試的雙耳帶噪語(yǔ)音是根據(jù)目標(biāo)語(yǔ)音(0°位置)和噪聲(45°位置)在五個(gè)信噪比水平上創(chuàng)建的:-10 dB、-5 dB、0 dB、5 dB和10 dB。從圖5中可以看出,BRNN算法可以在各種噪聲環(huán)境中均可提高帶噪語(yǔ)音的SNR和STOI。整體而言,本文基于小規(guī)模NN實(shí)現(xiàn)的算法的語(yǔ)音增強(qiáng)效果與其他算法相比有明顯改善,尤其是對(duì)于car噪聲環(huán)境下的帶噪語(yǔ)音具有突出的增強(qiáng)效果。綜上所述,BRNN算法可以顯著提高噪聲語(yǔ)音的信噪比,在提高STOI方面也取得了比較好的效果,從而獲得更好的目標(biāo)語(yǔ)音。

        圖6 目標(biāo)語(yǔ)音在0°、噪聲在45°條件下,各算法在三種噪聲環(huán)境下的處理效果

        助聽器用戶通常是面對(duì)說話者的。在目標(biāo)語(yǔ)音位于正前方的條件下,本文比較了BRNN算法與其他算法對(duì)不同噪聲位置干擾環(huán)境中的語(yǔ)音增強(qiáng)效果。用于測(cè)試的雙耳語(yǔ)音是根據(jù)目標(biāo)語(yǔ)音(0°位置)和噪聲(0°、45°、90°、135°和180°位置)在0dB水平上創(chuàng)建的。表1和表2分別顯示了在不同干擾位置下,各個(gè)算法處理后的左右耳語(yǔ)音的SNR和STOI,且計(jì)算了五個(gè)干擾位置條件下的平均雙耳測(cè)試結(jié)果,以比較各個(gè)算法的語(yǔ)音增強(qiáng)性能。

        表1 各種算法處理后語(yǔ)音的SNR比較(五個(gè)干擾位置)

        表2 各種算法處理后語(yǔ)音的STOI比較(五個(gè)干擾位置)

        從表1可以看出,與傳統(tǒng)的語(yǔ)音增強(qiáng)算法(三種方法的平均值)和Rnnoise相比,本文提出算法的雙耳平均信噪比分別增加了4.68 dB和1.63 dB。從表2可以看出,與傳統(tǒng)的語(yǔ)音增強(qiáng)算法(三種方法的平均值)和Rnnoise相比,本文提出算法的雙耳平均STOI分別增加了4.5%和4.8%。從表1和表2的測(cè)試數(shù)據(jù)還可以發(fā)現(xiàn),BRNN語(yǔ)音增強(qiáng)的效果與噪聲的到達(dá)方向有關(guān)。因?yàn)楫?dāng)噪聲到達(dá)方向?yàn)?°和180°時(shí),IPD接近于零,所以與其他算法相比,語(yǔ)音增強(qiáng)效果沒有明顯優(yōu)勢(shì)。當(dāng)噪聲到達(dá)方向?yàn)?5°、90°、135°時(shí),IPD存在明顯差異,所以與其他算法相比,BRNN增強(qiáng)的雙耳語(yǔ)音具有較好的SNR和STOI方面的改善效果??傊?,與其他算法相比,BRNN不僅能顯著提高語(yǔ)音的信噪比,還能保證其更高的STOI。

        3.3 FPGA驗(yàn)證結(jié)果

        為了驗(yàn)證在助聽器硬件中使用BRNN算法的可行性,本文設(shè)計(jì)了RNN網(wǎng)絡(luò)模塊的Verilog HDL代碼,并使用Digilent公司生產(chǎn)的Nexys4-DDR系列開發(fā)板進(jìn)行測(cè)試。本文網(wǎng)絡(luò)需要49 104個(gè)權(quán)值,比實(shí)時(shí)處理算法Rnnoise的網(wǎng)絡(luò)權(quán)值(需要87 503個(gè)權(quán)值)少44%,比文獻(xiàn)[22]中提出的不具有實(shí)時(shí)處理算法的網(wǎng)絡(luò)權(quán)值(需要220萬(wàn)個(gè)權(quán)值)少97%以上。通過Vivado對(duì)本文網(wǎng)絡(luò)硬件設(shè)計(jì)進(jìn)行綜合,從綜合報(bào)告中可以得到該設(shè)計(jì)所消耗的FPGA資源。

        表3顯示了查找表(LUT)、鎖存器(FF)、DSP和時(shí)鐘緩沖器(BUFG)四種資源的利用率。本文采用基于Xilinx公司artix-7 FPGA的Nexys4 DDR板。

        表3 硬件設(shè)計(jì)消耗的FPGA資源

        通過表3可以發(fā)現(xiàn),LUT資源利用率最高,但不超過20%,因此我們有足夠的資源來實(shí)現(xiàn)所提出的RNN網(wǎng)絡(luò)。本設(shè)計(jì)使用開發(fā)板搭載的XC7A35TCPG236芯片的封裝尺寸為10 mm×10 mm,可以放在耳掛式助聽器中,因此次網(wǎng)絡(luò)設(shè)計(jì)具有在助聽器硬件實(shí)現(xiàn)的可能。

        研究表明,人們?cè)诮涣鲿r(shí),當(dāng)看到對(duì)方嘴唇的動(dòng)作和聽到對(duì)方說話的時(shí)間差不超過15 ms時(shí),不會(huì)感覺到語(yǔ)音延遲[23]。測(cè)試結(jié)果表明輸入信號(hào)有效后,F(xiàn)PGA需要42208個(gè)時(shí)鐘周期得到相應(yīng)的輸出。即當(dāng)系統(tǒng)時(shí)鐘頻率為10 MHz時(shí),需要4.2 ms處理時(shí)間,滿足助聽器實(shí)時(shí)工作延時(shí)的要求。

        為了驗(yàn)證所提出的算法在FPGA上運(yùn)行是否正確,本文測(cè)試了其對(duì)4段SNR為0dB的帶噪語(yǔ)音的增強(qiáng)效果,并與用計(jì)算機(jī)(PC)仿真處理結(jié)果進(jìn)行比較,表4列出了實(shí)驗(yàn)結(jié)果。我們可以發(fā)現(xiàn),PC和FPGA上處理的雙耳語(yǔ)音的SNR基本相同,相關(guān)系數(shù)非常接近1,從而進(jìn)一步驗(yàn)證了本文提出算法實(shí)際應(yīng)用的可靠性。

        表4 基于FPGA和PC處理后的雙耳語(yǔ)音的SNR和相關(guān)系數(shù)比較

        4 總結(jié)

        本文基于循環(huán)神經(jīng)網(wǎng)絡(luò)提出了一種結(jié)合雙耳語(yǔ)音信息進(jìn)行語(yǔ)音增強(qiáng)的算法。對(duì)一幀雙耳語(yǔ)音提取32維振幅特征和16維相位特征作為RNN的輸入,以更好地映射帶噪語(yǔ)音與目標(biāo)語(yǔ)音之間的關(guān)系。此外,我們創(chuàng)新的提出了一種具有振幅特征處理區(qū)、相位特征處理區(qū)和混合特征處理區(qū)的雙輸入雙輸出RNN模型。實(shí)驗(yàn)結(jié)果表明本文算法在car、volvo和babble噪聲環(huán)境中,在保證語(yǔ)音可懂度的同時(shí)均可以較好的提高語(yǔ)音的SNR。FPGA實(shí)現(xiàn)RNN網(wǎng)絡(luò)的結(jié)果表明,LUT,F(xiàn)F,DSP和BUFG資源的利用率均小于20%,且在處理時(shí)鐘頻率為10 MHz時(shí),硬件處理延遲為4.2 ms。總之,本文提出算法具有可在助聽器中硬件實(shí)現(xiàn)的可能,且可以提供比助聽器常用語(yǔ)音增強(qiáng)算法更好的語(yǔ)音增強(qiáng)性能。在未來的研究中,我們將致力于實(shí)現(xiàn)該算法的硬件設(shè)計(jì),從而應(yīng)用于助聽器中進(jìn)一步提高其性能。

        猜你喜歡
        雙耳助聽器頻帶
        輕叩雙耳好處多
        輕叩雙耳好處多
        關(guān)于助聽器您需要了解的知識(shí)
        中老年保健(2021年7期)2021-08-22 07:40:58
        哥窯青釉雙耳彝爐
        紫禁城(2020年5期)2021-01-07 02:13:34
        Wi-Fi網(wǎng)絡(luò)中5G和2.4G是什么?有何區(qū)別?
        單音及部分頻帶干擾下DSSS系統(tǒng)性能分析
        雙頻帶隔板極化器
        我是奶奶的“助聽器”
        小布老虎(2016年12期)2016-12-01 05:47:08
        輕叩雙耳好處多
        眼鏡助聽器
        亚洲欧美国产精品久久| 国产成人一区二区三区影院免费| 偷拍激情视频一区二区| 国产性感午夜天堂av| 亚洲嫩模一区二区三区视频| 全国一区二区三区女厕偷拍| 久久人人爽人人爽人人片av高请 | 国产内射合集颜射| 亚欧同人精品天堂| 日韩av在线亚洲女同| 免费无遮挡无码永久视频| 亚洲精品综合一区二区三| 9久9久女女热精品视频免费观看| 最新欧美一级视频| 精品女人一区二区三区| 免费观看全黄做爰大片| 内射无码专区久久亚洲| 国产高清在线精品一区αpp| 蜜桃码一区二区三区在线观看| 国产精品婷婷久久爽一下| 天天做天天爱天天爽综合网 | 国产亚洲午夜高清国产拍精品| 五月天国产精品| 国产精品人成在线765| 中文字幕成人乱码熟女精品国50| 色噜噜亚洲男人的天堂| 一区二区三区av波多野结衣| 国产国拍精品av在线观看按摩| 久久久久久久99精品国产片| 香蕉亚洲欧洲在线一区| 国产精品国产三级国产剧情| 中文字幕日本人妻久久久免费| 欧美z0zo人禽交欧美人禽交| 扒下语文老师的丝袜美腿| 99久久婷婷国产亚洲终合精品| 老妇女性较大毛片| av无码天一区二区一三区| 亚洲一区二区三区在线激情| 天天做天天爱夜夜爽毛片毛片| 久久久久久久久888| 久久精品视频按摩|