亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種新的語(yǔ)音和噪聲活動(dòng)檢測(cè)算法及其在手機(jī)雙麥克風(fēng)消噪系統(tǒng)中的應(yīng)用

        2016-08-30 11:57:31章雒霏南京師范大學(xué)物理與科學(xué)技術(shù)學(xué)院南京210000
        電子與信息學(xué)報(bào) 2016年8期
        關(guān)鍵詞:麥克風(fēng)互通信噪比

        章雒霏 張 銘 李 晨(南京師范大學(xué)物理與科學(xué)技術(shù)學(xué)院南京210000)

        ?

        一種新的語(yǔ)音和噪聲活動(dòng)檢測(cè)算法及其在手機(jī)雙麥克風(fēng)消噪系統(tǒng)中的應(yīng)用

        章雒霏*張銘李晨
        (南京師范大學(xué)物理與科學(xué)技術(shù)學(xué)院南京210000)

        針對(duì)現(xiàn)有雙通道語(yǔ)音活動(dòng)檢測(cè)(Voice Activity Detection,VAD)算法依賴于固定閾值難以在多種噪聲環(huán)境下準(zhǔn)確地檢測(cè)語(yǔ)音和噪聲,應(yīng)用于手機(jī)消噪系統(tǒng)會(huì)造成語(yǔ)音失真或噪聲消除不好等問題,該文提出一種基于神經(jīng)網(wǎng)絡(luò)的VAD算法,該算法以分頻帶能量差和歸一化互通道相關(guān)為特征,采用神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)音和噪聲進(jìn)行分類。在此基礎(chǔ)上,將神經(jīng)網(wǎng)絡(luò)VAD與基于互通道信號(hào)功率比值的VAD相結(jié)合,提出一種新的適用于手機(jī)消噪系統(tǒng)的語(yǔ)音和噪聲活動(dòng)檢測(cè)算法分別對(duì)語(yǔ)音和噪聲進(jìn)行檢測(cè),并以此進(jìn)行噪聲抑制處理,減少了消噪系統(tǒng)因VAD誤判而造成的性能下降。實(shí)驗(yàn)結(jié)果表明,該處理方法在抑制背景噪聲和減少語(yǔ)音失真等方面優(yōu)于現(xiàn)有的消噪算法,對(duì)于方向性語(yǔ)音干擾也有很好的抑制效果。

        語(yǔ)音活動(dòng)檢測(cè);語(yǔ)音增強(qiáng);神經(jīng)網(wǎng)絡(luò)

        1 引言

        說話人處于噪聲環(huán)境中時(shí),遠(yuǎn)端接聽者往往會(huì)聽到難以忍受的噪聲[1],為了解決這個(gè)問題,現(xiàn)有手機(jī)集成了語(yǔ)音增強(qiáng)模塊來(lái)提高語(yǔ)音質(zhì)量。傳統(tǒng)的單通道語(yǔ)音增強(qiáng)算法[26]-無(wú)法很好地處理非穩(wěn)態(tài)噪聲,而多通道算法[1,713]-在利用語(yǔ)音與噪聲性質(zhì)差異的同時(shí)也結(jié)合了兩者的空間差異性,使得算法在非穩(wěn)態(tài)噪聲環(huán)境下性能得到很大改善??紤]到尺寸、功耗和計(jì)算復(fù)雜度等問題,手機(jī)主要使用的是雙麥克風(fēng)語(yǔ)音增強(qiáng)系統(tǒng)。

        語(yǔ)音活動(dòng)檢測(cè)(Voice Activity Detection,VAD)可以從帶噪語(yǔ)音信號(hào)中確定出語(yǔ)音的起始和結(jié)束位置,準(zhǔn)確的VAD可以幫助消噪算法對(duì)噪聲進(jìn)行有效抑制同時(shí)盡可能地減少語(yǔ)音信號(hào)的失真。目前,各種單通道或者雙通道的VAD算法已廣泛地應(yīng)用于手機(jī)消噪系統(tǒng)中。其中,基于雙麥克風(fēng)能量差(Power Level Differences,PLD)[1]及其改進(jìn)的算法[1014]-具有較好的檢測(cè)結(jié)果且復(fù)雜度低易于實(shí)現(xiàn),因此得到了廣泛的關(guān)注和研究。通話時(shí),手機(jī)底部的主麥克風(fēng)接收到語(yǔ)音信號(hào)能量遠(yuǎn)大于手機(jī)頂端的次麥克風(fēng)接收能量,而噪聲信號(hào)的能量基本相同。基于這樣的特性,PLD算法通過對(duì)雙麥克風(fēng)信號(hào)的能量差設(shè)定閾值來(lái)區(qū)分語(yǔ)音和噪聲,但其算法性能會(huì)受到麥克風(fēng)增益,噪聲種類和信噪比等因素的影響,在此基礎(chǔ)上,文獻(xiàn)[10]提出了基于雙麥克風(fēng)后驗(yàn)信噪比差異的VAD算法減少了麥克風(fēng)增益的影響,文獻(xiàn)[14]提出了基于PLD比率(PLD Ratio,PLDR)的算法提高了PLD算法的準(zhǔn)確率。雖然上述算法在穩(wěn)態(tài)及非穩(wěn)態(tài)噪聲環(huán)境中取得了一定效果,但難以同時(shí)保證語(yǔ)音和噪聲檢測(cè)的準(zhǔn)確性,應(yīng)用于手機(jī)消噪系統(tǒng)會(huì)造成語(yǔ)音失真,降低可懂度。

        針對(duì)上述問題,本文提出了一種新的基于神經(jīng)網(wǎng)絡(luò)的VAD算法,該算法以分頻帶能量差和歸一化互通道相關(guān)作為特征,采用神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)音和噪聲進(jìn)行分類,不依賴于固定閾值,較現(xiàn)有的基于PLD的算法準(zhǔn)確性更高。在此基礎(chǔ)上,本文將神經(jīng)網(wǎng)絡(luò)VAD與基于互通道信號(hào)功率比值的VAD相結(jié)合,提出一種新的適用于手機(jī)消噪系統(tǒng)的語(yǔ)音和噪聲活動(dòng)檢測(cè)算法,該算法分別對(duì)語(yǔ)音和噪聲進(jìn)行檢測(cè),減少了消噪算法因VAD的誤判而造成的性能下降,與現(xiàn)有的雙麥克風(fēng)消噪算法相比,本算法能夠更有效地抑制噪聲,減少語(yǔ)音失真。

        圖1 雙麥克風(fēng)接收的帶噪語(yǔ)音信號(hào)功率

        本文第2節(jié)描述神經(jīng)網(wǎng)絡(luò)VAD的原理;第3節(jié)介紹結(jié)合神經(jīng)網(wǎng)絡(luò)VAD提出的語(yǔ)音和噪聲檢測(cè)算法及其在手機(jī)消噪系統(tǒng)中的應(yīng)用;第4節(jié)給出實(shí)驗(yàn)結(jié)果和分析;第5節(jié)進(jìn)行總結(jié)。

        2 基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音活動(dòng)檢測(cè)算法

        5 dB Babb le噪聲環(huán)境下,雙麥克風(fēng)接收到的帶噪語(yǔ)音信號(hào)功率如圖1所示。

        頻域上雙通道接收到的純凈語(yǔ)音信號(hào)的能量差幾乎都在10 dB左右[1],而背景噪聲存在時(shí)語(yǔ)音信號(hào)的某些頻帶受到噪聲的污染能量差下降(如圖1中1.0~1.5 kHz之間),但部分頻帶仍然保持著10 dB左右的能量差(如圖1中1.5~2.5 kHz之間)。這些頻帶的能量差可以作為表征目標(biāo)語(yǔ)音存在的特征,為了更好地利用這些頻帶的信息,本算法對(duì)頻域進(jìn)行劃分,計(jì)算子帶互通道能量差(sub-band power level difference)作為神經(jīng)網(wǎng)絡(luò)的特征,計(jì)算過程如式(1)。首先將時(shí)域信號(hào)轉(zhuǎn)化到頻域,得到兩個(gè)通道在頻域的信號(hào):

        對(duì)每個(gè)子帶(本算法按照MEL頻帶劃分)計(jì)算互通道能量差的均值如式(3)所示。

        因?yàn)槟繕?biāo)語(yǔ)音距主麥克風(fēng)較次麥克風(fēng)近,主麥克風(fēng)早于次麥克接受到語(yǔ)音信號(hào),而背景噪聲到達(dá)麥克風(fēng)的距離基本相等,時(shí)延較語(yǔ)音小,所以雙通道時(shí)延也是區(qū)分語(yǔ)音和噪聲的一個(gè)重要的特征,在本算法中,使用歸一化的互通道相關(guān)函數(shù)來(lái)作為表征時(shí)延的特征,計(jì)算式為

        反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)是使用最為廣泛的神經(jīng)網(wǎng)絡(luò),在訓(xùn)練階段,通過調(diào)整神經(jīng)元之間連接的權(quán)值,BP神經(jīng)網(wǎng)絡(luò)可以完成輸入和輸出之間復(fù)雜的映射關(guān)系。本文使用的是3層的BP神經(jīng)網(wǎng)絡(luò)。其中輸入層為提取的兩個(gè)特征矢量,即分頻帶能量差和歸一化互通道相關(guān)函數(shù),輸出層為對(duì)應(yīng)的語(yǔ)音活動(dòng)檢測(cè)的標(biāo)簽(1:語(yǔ)音;0:噪聲)。

        3 手機(jī)雙麥克風(fēng)語(yǔ)音增強(qiáng)系統(tǒng)

        雙麥克風(fēng)語(yǔ)音增強(qiáng)系統(tǒng)框圖如圖2所示,濾波器1將次麥克風(fēng)信號(hào)作為參考,主麥克風(fēng)信號(hào)作為輸入,通過VAD檢測(cè)信噪比較高的語(yǔ)音段控制濾波器調(diào)整參數(shù)將目標(biāo)語(yǔ)音從次麥克風(fēng)中濾除得到噪聲信號(hào)。濾波器2將主麥克風(fēng)信號(hào)作為參考,濾波器1輸出噪聲信號(hào)作為輸入,通過噪聲活動(dòng)檢測(cè)NAD(Noise Activity Detection)在噪聲段控制濾波器調(diào)整參數(shù)將噪聲信號(hào)從主麥克風(fēng)的帶噪語(yǔ)音信號(hào)中濾除得到增強(qiáng)語(yǔ)音信號(hào)。

        圖2 手機(jī)雙麥克風(fēng)語(yǔ)音增強(qiáng)系統(tǒng)框圖

        實(shí)際上,濾波器1和濾波器2的參數(shù)分別模擬了語(yǔ)音和噪聲信號(hào)在兩個(gè)麥克風(fēng)之間的傳遞函數(shù),為了避免在信噪比較低的語(yǔ)音和噪聲混合部分對(duì)濾波器參數(shù)進(jìn)行調(diào)整造成濾波器參數(shù)與傳遞函數(shù)的失配,本文中,我們結(jié)合神經(jīng)網(wǎng)絡(luò)VAD提出一種新的語(yǔ)音和噪聲活動(dòng)檢測(cè)算法,該算法通過VAD檢測(cè)信噪比較高的語(yǔ)音段落控制濾波器1的參數(shù)調(diào)整,同時(shí)利用NAD檢測(cè)噪聲段落控制濾波器2的參數(shù)調(diào)整。

        圖3 不同平滑參數(shù)計(jì)算的互通道能量的比值

        圖4  5 dB Babble噪聲下利用Pf(t)和Ps(t)判斷語(yǔ)音信號(hào)

        圖5  VAD的結(jié)果

        3.1語(yǔ)音活動(dòng)檢測(cè)(VAD)

        現(xiàn)有的PLD算法通過設(shè)定固定閾值δ來(lái)區(qū)分語(yǔ)音和噪聲。但是互通道功率比值的大小會(huì)因信噪比和噪聲種類的改變而改變,固定的閾值無(wú)法得到準(zhǔn)確結(jié)果。針對(duì)這一問題,本算法做了改進(jìn),采用不同的平滑參數(shù)α計(jì)算兩個(gè)通道信號(hào)的功率。

        從圖3中可以看出,語(yǔ)音存在的部分,短平滑計(jì)算的互通道功率比Pf(t)比長(zhǎng)平滑計(jì)算的比值Ps(t)大得多,可以通過比較Pf(t)與Ps(t)的大小來(lái)確定語(yǔ)音信號(hào)存在且信噪比較高的時(shí)域采樣點(diǎn),但是通過調(diào)整判斷閾值不能夠完全地區(qū)分語(yǔ)音和噪聲,如圖4所示(VAD等于1表示語(yǔ)音信號(hào)),當(dāng)設(shè)定Pf(t)>2Ps(t)的采樣點(diǎn)為語(yǔ)音時(shí),部分噪聲被誤判為語(yǔ)音,而提高閾值為Pf(t)>6Ps(t)時(shí),雖然誤判為語(yǔ)音的噪聲減少了,但是語(yǔ)音檢測(cè)的準(zhǔn)確性也下降了。

        基于神經(jīng)網(wǎng)絡(luò)的VAD可以準(zhǔn)確地判斷出語(yǔ)音存在的部分,將神經(jīng)網(wǎng)絡(luò)VAD結(jié)果和基于長(zhǎng)和短時(shí)平滑計(jì)算的功率比值確定的語(yǔ)音存在且信噪比較高的部分相結(jié)合可以去除誤判為語(yǔ)音的噪聲采樣點(diǎn),5 dB babble噪聲環(huán)境下的結(jié)果如圖5所示。

        3.2噪聲活動(dòng)檢測(cè)NAD

        將濾波器1輸出的噪聲信號(hào)與主麥克風(fēng)中的帶噪語(yǔ)音信號(hào)進(jìn)行比較,因語(yǔ)音部分能量較大,當(dāng)噪聲信號(hào)與語(yǔ)音信號(hào)的能量相比時(shí),比值會(huì)非常小,我們可以對(duì)噪聲與帶噪信號(hào)能量的比值設(shè)定閾值來(lái)確定噪聲段,計(jì)算過程如式(9)和式(10):

        其中,ns()P t與nf()P t分別為長(zhǎng)平滑和短平滑計(jì)算得到的噪聲與主麥克風(fēng)中帶噪語(yǔ)音的功率比值,當(dāng)語(yǔ)音存在的時(shí)候,噪聲與語(yǔ)音的比值會(huì)接近于零,而噪聲段的比值則較大且短平滑的值遠(yuǎn)遠(yuǎn)大于長(zhǎng)平滑的比值,為了在噪聲段增加長(zhǎng)時(shí)與短時(shí)平滑功率比值的差距,我們對(duì)ns()P t再次進(jìn)行平滑:

        其中,nss()P t為對(duì)ns()P t進(jìn)行再次平滑得到的功率比值,這里的平滑系數(shù)ssα根據(jù)神經(jīng)網(wǎng)絡(luò)VAD的結(jié)果進(jìn)行調(diào)整,在語(yǔ)音段ssα為1保持nss()P t不變,在噪聲段ssα為0.999迭代平滑計(jì)算nss()P t,經(jīng)過再次平滑后的nss()P t在噪聲段更為平緩,與nf()P t的差距更大,將nf()P t與nss()P t進(jìn)行比較更有利于我們準(zhǔn)確地判斷出噪聲采樣點(diǎn)。

        4 實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)使用手機(jī)長(zhǎng)度為13 cm,在一個(gè)7.91× 7.31×4.85 m3的房間中進(jìn)行測(cè)試,房間的混響為0.3 s,使用B&K HATS仿真頭的人工嘴來(lái)播放目標(biāo)語(yǔ)音信號(hào),通過ACTS的8個(gè)喇叭噪聲放音系統(tǒng)來(lái)模擬真實(shí)的噪聲環(huán)境,人工頭放置在圓點(diǎn),8個(gè)喇叭以一個(gè)環(huán)形位于人工頭的四周,距離人工頭大約為2m。信號(hào)的采樣率為8 kHz,幀長(zhǎng)L=256,幀移M=128。實(shí)驗(yàn)選取100段語(yǔ)音,其中80段用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,剩余20段用于驗(yàn)證神經(jīng)網(wǎng)絡(luò)的結(jié)果。選取6種常見的噪聲環(huán)境,Babble,Car,Restaurant,O ffice,Street和方向性的語(yǔ)音干擾,信噪比分別為5 dB,10 dB和15 dB。神經(jīng)網(wǎng)絡(luò)采用MATLAB 2014a的神經(jīng)網(wǎng)絡(luò)工具箱。隱藏層為30個(gè)神經(jīng)元,輸入層到隱藏層采用tansig作為激活函數(shù),隱藏層到輸出層采用purline作為激活函數(shù),最大迭代次數(shù)為2000次,學(xué)習(xí)步長(zhǎng)為0.01,學(xué)習(xí)函數(shù)為traingdx。采用24個(gè)MEL頻帶計(jì)算子帶互通道能量差,同時(shí),選取時(shí)延從-10到+10每隔1個(gè)采樣點(diǎn)計(jì)算歸一化互通道相關(guān)。一共45個(gè)值作為神經(jīng)網(wǎng)絡(luò)的輸入,輸出層為對(duì)應(yīng)的語(yǔ)音活動(dòng)檢測(cè)的標(biāo)簽(1:語(yǔ)音;0:噪聲)。

        首先對(duì)神經(jīng)網(wǎng)絡(luò)VAD算法的準(zhǔn)確性進(jìn)行驗(yàn)證,將該算法與基于PLD比率(PLDR)[14]的VAD算法進(jìn)行比較。分別用3個(gè)性能指標(biāo)來(lái)衡量語(yǔ)音活動(dòng)檢測(cè)的準(zhǔn)確性,Psh為檢測(cè)正確的語(yǔ)音信號(hào)幀/語(yǔ)音信號(hào)總幀數(shù),Pnh為檢測(cè)正確的噪聲信號(hào)幀/非語(yǔ)音信號(hào)總幀數(shù),Pgh為總的準(zhǔn)確率。

        表1  10 dB信噪比噪聲環(huán)境下,PLDR和本文算法的語(yǔ)音活動(dòng)檢測(cè)結(jié)果

        從表1中可以看出,本文算法無(wú)論是在語(yǔ)音幀、噪聲幀還是總的準(zhǔn)確率方面都要優(yōu)于PLDR算法。干擾人聲也是手機(jī)通話中非常常見的一類噪聲,但是,由于干擾人聲是高度非平穩(wěn)信號(hào)且具有方向性,現(xiàn)有的VAD算法無(wú)法很好地處理這類噪聲。我們選取4個(gè)不同方位的語(yǔ)音干擾比較兩個(gè)算法的性能。如表1所示,本文提出的算法利用了目標(biāo)語(yǔ)音和干擾人聲的空間差異來(lái)區(qū)分兩者獲得了準(zhǔn)確的結(jié)果。而PLDR算法在干擾人聲的噪聲環(huán)境下性能有了很大的下降。

        為了測(cè)試神經(jīng)網(wǎng)絡(luò)VAD在不同信噪比下的性能,我們分別選取5 dB,10 dB,15 dB的信噪比進(jìn)行驗(yàn)證,結(jié)果如表2所示。從表2中可以看到,本文算法不依賴于固定的閾值,即使在5 dB這樣的低信噪比下依舊可以取得很好的VAD結(jié)果,非常適合于手機(jī)的應(yīng)用。

        本文采用ACTS音頻評(píng)價(jià)系統(tǒng)中的對(duì)數(shù)譜距離(Logistic Spectral Distance,LSD),客觀質(zhì)量評(píng)估(Perceptual Evaluation of Speech Quality,PESQ[15])和信噪比(SNR)分別對(duì)本文提出的語(yǔ)音增強(qiáng)算法和文獻(xiàn)[1]提出的基于PLD的手機(jī)雙麥克風(fēng)語(yǔ)音增強(qiáng)算法的性能進(jìn)行了衡量。

        信噪比衡量了語(yǔ)音增強(qiáng)算法的噪聲抑制效果。從表3中可以看出,本文提出的消噪算法相較于PLD算法有了很大的提升,特別是在5 dB信噪比的條件下,本文算法輸出的信噪比均能夠達(dá)到15 dB左右。為了驗(yàn)證算法對(duì)于方向性干擾人聲的抑制效果,我們選取了45o方位入射的干擾人聲,因?yàn)?5o方位的干擾人聲與目標(biāo)語(yǔ)音的入射方位非常接近,傳統(tǒng)的消噪算法很難對(duì)其進(jìn)行有效的抑制,從結(jié)果中可以看出,本文算法對(duì)于45o方位的干擾人聲也有很好的效果,而PLD算法的性能則大大地下降。

        表2 不同信噪比環(huán)境下,本文算法的語(yǔ)音活動(dòng)檢測(cè)結(jié)果

        表3 在不同噪聲和信噪比條件下經(jīng)過語(yǔ)音增強(qiáng)處理之后的輸出信噪比(dB)

        語(yǔ)音的可懂度在手機(jī)的通信中非常的重要,消噪算法會(huì)帶來(lái)一定程度的語(yǔ)音失真,LSD指標(biāo)主要用來(lái)衡量增強(qiáng)語(yǔ)音的失真度,LSD值越大說明語(yǔ)音信號(hào)的失真越嚴(yán)重,越小表明語(yǔ)音信號(hào)失真越小,質(zhì)量越接近于原始語(yǔ)音。表4給出本文算法與PLD算法增強(qiáng)處理后的LSD對(duì)比結(jié)果

        從表4中可以看出,本文提出的消噪算法相較于PLD算法對(duì)語(yǔ)音信號(hào)的損失更小,說明經(jīng)過本文算法處理的語(yǔ)音失真更小,語(yǔ)音質(zhì)量更接近于原始語(yǔ)音信號(hào),對(duì)于方向性的語(yǔ)音干擾也得到了較好的結(jié)果。

        本文還采用PESQ來(lái)測(cè)試語(yǔ)音增強(qiáng)算法對(duì)語(yǔ)音客觀質(zhì)量的影響,PESQ的值越高說明語(yǔ)音質(zhì)量越高。從表5中可以看出,與PLD的算法相比,本文提出的消噪算法的輸出語(yǔ)音具有更好的語(yǔ)音質(zhì)量,非正式的主觀聽覺測(cè)試與上述結(jié)果一致。

        5 總結(jié)

        本文提出了一種新的基于神經(jīng)網(wǎng)絡(luò)的VAD算法,結(jié)合兩個(gè)表征目標(biāo)語(yǔ)音空間特性的特征,即分頻帶能量差和互通道相關(guān)函數(shù)作為神經(jīng)網(wǎng)絡(luò)的輸入訓(xùn)練神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音活動(dòng)檢測(cè)。再將基于雙通道功率比值的VAD結(jié)果與神經(jīng)網(wǎng)絡(luò)VAD的結(jié)果相結(jié)合,提出一種新的適用于手機(jī)消噪系統(tǒng)的語(yǔ)音和噪聲檢測(cè)算法,該算法分別對(duì)語(yǔ)音和噪聲進(jìn)行檢測(cè),減少了消噪系統(tǒng)因VAD的誤判而造成的性能下降。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的基于PLD的消噪算法相比,無(wú)論是VAD的準(zhǔn)確率還是語(yǔ)音增強(qiáng)的效果均有了提升,避免了消噪算法對(duì)于語(yǔ)音信號(hào)的損害,提高了語(yǔ)音的可懂度,保證了手機(jī)通話的質(zhì)量。

        表4 本文算法與PLD算法增強(qiáng)處理后的LSD對(duì)比結(jié)果

        表5 不同信噪比和噪聲條件下經(jīng)過語(yǔ)音增強(qiáng)處理之后的PESQ

        [1]JEUB M,HERGLOTZ C,NELKE C M,et al.Noise reduction for dual-m icrophone m ob ile phones exp loiting power level differences[C].IEEE International Con ference on Acoustics,Speech,and Signal Processing,Kyoto,2012: 1693-1696.doi:10.1109/ICASSP.2012.6288223.

        [2]XU Y,DU J,and DA IL R.A Regression app roach to speech enhancement based on deep neural networks[J].IEEE Transactions on Audio,Speech,and Language Processing,2015,23(1):7-19.doi:10.1109/TASLP.2014.2364452.

        [3]XU Y,DU J,and DAIL R.An experimental study on speech enhancement based on deep neural networks[J].IEEE Signal Processing Letters,2014,21(1):65-68.doi:10.1109/LSP. 2013.2291240.

        [4]WANG Y X,NARAYANAN A,andWANG D L.On training targets for supervised speech separation[J].IEEE Transactions on Audio,Speech,and Language Processing,2014,22(12):1849-1859.doi:10.1109/TASLP.2014.2352935.

        [5]王明合,張二華,唐振明,等.基于Fisher線性判別分析的語(yǔ)音信號(hào)端點(diǎn)檢測(cè)方法[J].電子與信息學(xué)報(bào),2015,37(6): 1343-1349.doi:10.11999/JEIT 141122.

        WANGM inghe,ZHANG Erhua,TANG Zhenm in,etal.Voice activity detection based on Fisher linear d iscrim inant analysis[J].Journal of Electronics&Information Technology,2015,37(6):1343-1349.doi:10.11999/JEIT141122.

        [6]郭海燕,李梟雄,李擬珺.基于基頻狀態(tài)和幀間相關(guān)性的單通道語(yǔ)音分離算法[J].東南大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,44(6): 1100-1104.

        GUO Haiyan,LI Xiaoxiong,and LI Nijun.Single-channel speech separation based on pitch state and interframe correlation[J].Journal of Southeast Un iversity(Natural Science Edition),2014,44(6):1100-1104.

        [7]NELKE C,BEAUGEANT C,and VARY P.Dualm icrophone noise PSD estimation for mobile phones in hands-free position exp loiting the coherence and speech p resence probability[C].IEEE International Conference on Acoustics,Speech,and Signal Processing,Vancouver,2013:7279-7283. doi:10.1109/ICASSP.2013.6639076.

        [8]YOUSEFIAN N,RAHMAN I M,and AKBARI A.Power level difference as a criterion for speech enhancement[C]. IEEE International Conference on Acoustics,Speech,and Signal Processing,Taipei,2009:4653-4656.doi:dx.doi.org/ 10.1109/ICASSP.2009.4960668.

        [9]YOUSEFIAN N,AKBARI A,and RAHMANI M.Usingpower level difference for near field dual-microphone speech enhancement[J].Applied Acoustics,2009,70(11/12): 1412-1421.

        [10]FU Z H,F(xiàn)AN F,and HUANG J D.Dual-m icrophone noise reduction for mobile phone application[C].IEEE International Con ference on Acoustics,Speech,and Signal Processing,Vancouver,2013:7239-7243.doi:10.1109/ ICASSP.2013.6639068.

        [11]MEYER-BAESE U.Digital Signal Processing w ith Field Programmable Gate Arrays[M].Third Edition,Berlin Heidelberg:Springer,2007:298-305.

        [12]RUBIO J E,ISHIZUKA K,SAWADA H,et al.Twom icrophone voice activity detection based on the hom ogeneity of the direction of arrival estim ates[C].IEEE International Con ference on Acoustics,Speech,and Signal Processing,Honolulu,2007:385-388.doi:10.1109/ICASSP. 2007.366930.

        [13]ZHAO H C,LI L G,and LI L H,et al.Dual-m icrophone adaptive noise canceller w ith a voice activity detector[C]. IEEE Region 10 Sym posium,Kuala Lum pur,2014:551-554. doi:10.1109/TENCONSp ring.2014.6863095.

        [14]CHOI JH and CHANG JH.Dual-m icrophone voice activity detection technique based on two-step power level difference ratio[J]IEEE Transactions on Audio,Speech and Language Processing,2014.22(6):1069-1081.

        [15]HU Y,and LOIZHOU P C.Evaluation of ob jective quality measures for speech enhancement[J].IEEE Transactions on Audio,Speech,and Language Processing,2008,16(1): 229-238.

        章雒霏:女,1990年生,博士生,研究方向?yàn)樾盘?hào)處理、語(yǔ)音增強(qiáng)、語(yǔ)音識(shí)別、語(yǔ)音定位.

        張銘:男,1963年生,博士生導(dǎo)師,特聘教授,研究方向?yàn)樾盘?hào)處理、語(yǔ)音增強(qiáng)、語(yǔ)音識(shí)別.

        李晨:女,1980年生,博士,研究方向?yàn)樾盘?hào)處理、語(yǔ)音增強(qiáng)、語(yǔ)音識(shí)別、語(yǔ)音定位.

        A New Voice and Noise Activity Detection A lgorithm and Its App lication to Dual Microphone Noise Suppression System for Handset

        ZHANG Luofei ZHANG M ing LIChen
        (School of Physics and Technology,Nanjing Normal University,Nanjing 210000,China)

        Existing dualm icrophone Voice Activity Detection(VAD)algorithms use normally a fixed threshold. The fixed threshold can not provide an accu rate VAD under various noise environmen ts.In such case,it causes voice quality degradation,particularly in handset app lications.This paper p roposes a new VAD algorithm based on Neural Network(NN).Both sub-band power level difference and inter-m icrophone cross correlation are used as features.Then the NN based VAD is combined w ith themethod of inter-m icrophone signalpower ratio to get a new voice and noise activity detection algorithm.Furthermore,the algorithm is used into noise suppression in handset to avoid performance degradation caused by VAD m isjudgment.Experimental results show that the p roposed m ethod provides better noise suppression performance and lower speech d istortion com pared to the existing method.

        Voice Activity Detection(VAD);Speech enhancement;Neural Network(NN)

        s:Program of Natural Science Research of Jiangsu Higher Education Institutions of China,Program of Science and Technology of Jiangsu(BE2014139)

        TN912.35

        A

        1009-5896(2016)08-2020-07

        10.11999/JEIT 151302

        2015-11-23;改回日期:2016-04-12;網(wǎng)絡(luò)出版:2016-05-31

        章雒霏lincover@126.com

        江蘇省自然科學(xué)基金,江蘇省聲頻技術(shù)工程重點(diǎn)實(shí)驗(yàn)室基金項(xiàng)目(BE2014139)

        猜你喜歡
        麥克風(fēng)互通信噪比
        基于深度學(xué)習(xí)的無(wú)人機(jī)數(shù)據(jù)鏈信噪比估計(jì)算法
        編讀互通
        中日ETF互通“活水來(lái)”
        編讀互通
        Binaural Rendering based on Linear Differential Microphone Array and Ambisonic Reproduction
        基于數(shù)字麥克風(fēng)的WIFI語(yǔ)音發(fā)射機(jī)
        低信噪比下LFMCW信號(hào)調(diào)頻參數(shù)估計(jì)
        低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
        麥克風(fēng)的藝術(shù)
        面向VDC組網(wǎng)的VXLAN控制面互通方案探討
        亚洲人成精品久久久久| 亚洲精品精品日本日本| 偷拍视频十八岁一区二区三区| 四虎国产精品成人影院| 人妻熟女中文字幕av| 人人妻人人澡人人爽精品日本| 久久久久香蕉国产线看观看伊| 亚洲熟妇无码久久精品疯| 国产丝袜美腿诱惑在线观看 | 中文无码日韩欧| 欧美老熟妇又粗又大| 亚洲av乱码一区二区三区观影| 国产最新女主播福利在线观看| 国产农村妇女精品一二区| 国产久视频国内精品999| 少妇裸淫交视频免费看| 99久久精品费精品国产一区二| 国产亚洲午夜高清国产拍精品| 亚洲熟妇AV一区二区三区宅男| 精品黄色一区二区三区| 欧美怡春院一区二区三区| 国产乱人伦在线播放| 国产一起色一起爱| 久久人妻中文字幕精品一区二区| 麻豆精品一区二区综合av| 免费拍拍拍网站| 精品国产免费Av无码久久久| 国产毛片精品一区二区色| 综合亚洲伊人午夜网| 免费观看又色又爽又黄的韩国| 亚洲无码视频一区:| 一本之道日本熟妇人妻| 国产青榴视频在线观看| 久草国产视频| 国产精品一品二区三区| 国产精品日本一区二区在线播放| 婷婷丁香社区| 日韩精品极品在线观看视频| 日本道免费一区二区三区日韩精品| 色哟哟网站在线观看| 乱色视频中文字幕在线看|