亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種低信噪比環(huán)境下的語(yǔ)音端點(diǎn)檢測(cè)算法

        2020-11-10 11:54:24卜玉婷曾慶寧鄭展恒
        聲學(xué)技術(shù) 2020年5期
        關(guān)鍵詞:端點(diǎn)瞬態(tài)信噪比

        卜玉婷,曾慶寧,鄭展恒

        (桂林電子科技大學(xué)“認(rèn)知無(wú)線電與信息處理”教育部重點(diǎn)實(shí)驗(yàn)室,廣西桂林541004)

        0 引 言

        端點(diǎn)檢測(cè)(Endpoint Detection,ED),通常是指在存在背景噪聲的情況下檢測(cè)出語(yǔ)音的起始點(diǎn)和結(jié)束點(diǎn),它在語(yǔ)音信號(hào)處理中至關(guān)重要,如語(yǔ)音增強(qiáng)、語(yǔ)音識(shí)別、編碼和傳輸?shù)萚1]。隨著智能家居的普及,對(duì)語(yǔ)音產(chǎn)品的性能要求也越來(lái)越高,人們希望在遠(yuǎn)場(chǎng)或者嘈雜的環(huán)境中也能用語(yǔ)音控制智能設(shè)備,因此研究低信噪比環(huán)境下高效的語(yǔ)音控制技術(shù)具有一定的實(shí)際應(yīng)用價(jià)值。

        端點(diǎn)檢測(cè)是一種常用的語(yǔ)音信號(hào)前端處理技術(shù),語(yǔ)音端點(diǎn)的準(zhǔn)確定位有助于排除噪聲段的干擾、增強(qiáng)系統(tǒng)處理的實(shí)時(shí)響應(yīng)性、降低功耗從而提升系統(tǒng)性能。傳統(tǒng)算法主要采用語(yǔ)音特征參數(shù)進(jìn)行檢測(cè),通??蓜澐譃闀r(shí)域和頻域兩大類(lèi),在時(shí)域中,短時(shí)能量、短時(shí)過(guò)零率、短時(shí)相關(guān)性特征[2]被廣泛應(yīng)用;在頻域中,譜熵、方差[3]、倒譜距離[4]、小波變換等特征也被認(rèn)為是端點(diǎn)檢測(cè)的有效參數(shù)。端點(diǎn)檢測(cè)的性能和信噪比(Signal to Noise Ratio,SNR)密切相關(guān),低信噪比環(huán)境下的端點(diǎn)檢測(cè)一直是研究的熱點(diǎn)之一[5]。近年來(lái)提出了許多改進(jìn)的端點(diǎn)檢測(cè)算法,如文獻(xiàn)[2]提出了一種調(diào)制域譜減結(jié)合自相關(guān)函數(shù)的端點(diǎn)檢測(cè)算法,因加入了去噪過(guò)程使得在低信噪比下減少了誤判;文獻(xiàn)[4]通過(guò)執(zhí)行多頻譜估計(jì)的譜減法增強(qiáng)語(yǔ)音,再利用Mel倒譜距離進(jìn)行檢測(cè),并且采用自適應(yīng)閾值可應(yīng)用于不同環(huán)境。但是,上述算法的檢測(cè)精度仍有待提高。

        考慮到上述算法的優(yōu)缺點(diǎn),本文研究了一種適用于非平穩(wěn)噪聲環(huán)境的語(yǔ)音端點(diǎn)檢測(cè)算法,通過(guò)對(duì)帶噪語(yǔ)音進(jìn)行瞬態(tài)干擾抑制以及調(diào)制域譜減[6]獲得降噪和語(yǔ)音失真之間的平衡,從而改善語(yǔ)音質(zhì)量,再結(jié)合功率歸一化倒譜系數(shù)(Power Normalized Cepstrum Coefficient,PNCC)[7]之間的距離進(jìn)行端點(diǎn)檢測(cè)。實(shí)驗(yàn)表明,該算法在低信噪比環(huán)境下仍然有效且具有一定的抗噪魯棒性。

        1 瞬態(tài)噪聲抑制

        越來(lái)越多的研究在端點(diǎn)檢測(cè)前增強(qiáng)了語(yǔ)音,這對(duì)端點(diǎn)檢測(cè)的準(zhǔn)確性有重要影響。傳統(tǒng)的語(yǔ)音增強(qiáng)技術(shù)利用時(shí)間平滑來(lái)估計(jì)噪聲的功率譜密度(Power Spectrum Density,PSD)是不夠的,因?yàn)閷?shí)際生活中出現(xiàn)的大多都是非平穩(wěn)噪聲,如典型的瞬態(tài)干擾:鍵盤(pán)敲擊、敲門(mén)聲等,具有時(shí)間短、頻域廣等特點(diǎn),會(huì)對(duì)語(yǔ)音造成極大的干擾。因此提高算法在復(fù)雜環(huán)境中的穩(wěn)健性具有廣泛的研究意義。

        1.1 瞬態(tài)PSD估計(jì)

        利用語(yǔ)音、瞬態(tài)噪聲、背景噪聲的不同變化率,引入一個(gè)可跟蹤瞬態(tài)信號(hào)快速變化的最優(yōu)改進(jìn)對(duì)數(shù)譜幅度估計(jì)(Optimally-Modified Log-Spectral Amplitude Estimator,OM-LSA)算法[8],通過(guò)分配一個(gè)較小的平滑參數(shù)來(lái)調(diào)整OM-LSA的噪聲PSD估計(jì)分量,以跟蹤輸入信號(hào)頻譜的瞬態(tài)變化。

        假設(shè)x(n)為語(yǔ)音信號(hào),d(n)為加性平穩(wěn)噪聲、t(n)為瞬態(tài)噪聲,被測(cè)信號(hào)y(n)表示如下:

        算法整體的流程圖如圖1所示。

        信號(hào)經(jīng)過(guò)加窗、快速傅里葉變換(Fast Fourier Transform,FFT)后可實(shí)現(xiàn)短時(shí)傅里葉變換(Short Time Fourier Transform,SFFT),然后對(duì)最小控制遞歸平均(Minima Controlled Recursive Averaging,MCRA)的平滑參數(shù)進(jìn)行調(diào)整再加入反因果窗區(qū)分瞬態(tài),可為修正的 OM-LSA算法提供準(zhǔn)確的噪聲PSD估計(jì)。

        圖2為改進(jìn)的噪聲PSD估計(jì)算法流程圖,虛線框圖為調(diào)整部分,具體改進(jìn)如下:

        圖1 瞬態(tài)噪聲抑制原理圖Fig.1 Principle diagram of transient noise suppression

        (1)平滑處理

        y(n)由瞬態(tài)分量和非瞬態(tài)分量(語(yǔ)音和噪聲)構(gòu)成,利用上述算法估計(jì)非瞬態(tài)分量的 PSD,圖中Y 、分別表示含噪語(yǔ)音在時(shí)頻域做短時(shí)傅里葉變換的幅度值以及測(cè)量信號(hào)Y的估計(jì)值,則為瞬態(tài)噪聲的功率譜估計(jì)值以及平穩(wěn)噪聲信號(hào)的功率譜估計(jì)值,噪聲信號(hào)功率譜估計(jì)基于一個(gè)對(duì)頻譜幅度進(jìn)行時(shí)間遞歸平均獲得的周期圖,其中當(dāng)前幀含噪語(yǔ)音的功率譜S(k,l)可表示為

        為了更快跟蹤采用一個(gè)較小的平滑參數(shù)αs,其值越低,對(duì)當(dāng)前時(shí)間的估計(jì)越準(zhǔn)確,瞬態(tài)信號(hào)能迅速被捕捉到,通過(guò)實(shí)驗(yàn)將其從0.9~0.99調(diào)整為0.7。

        (2)最小值搜索

        瞬態(tài)存在信號(hào)由平滑周期圖的極小值控制,該極小值由長(zhǎng)度為L(zhǎng)的有限因果窗得到:

        但由于語(yǔ)音開(kāi)始時(shí)也是突發(fā)的,不能通過(guò)頻譜遞歸平滑來(lái)跟蹤,其容易被誤判為瞬態(tài)信號(hào),根據(jù)瞬時(shí)信號(hào)功率衰減快、語(yǔ)音信號(hào)開(kāi)始后功率水平保持穩(wěn)定這一特點(diǎn)引入一個(gè)長(zhǎng)度為40 ms的反因果窗來(lái)實(shí)現(xiàn)二者的區(qū)分。

        計(jì)算因果窗和反因果窗兩個(gè)最小譜值的最大值,并將其作為修正的周期圖的極小值參與瞬態(tài)決策:

        進(jìn)一步地,通過(guò)以下規(guī)則做出瞬態(tài)存在決策,其中δ為經(jīng)驗(yàn)閾值,I(k,l)為瞬態(tài)信號(hào)指示器,p(k,l)為瞬態(tài)存在概率:

        圖2 改進(jìn)的噪聲功率譜密度估計(jì)Fig.2 Improved noise power spectral density estimation

        1.2 瞬態(tài)抑制執(zhí)行判斷

        為了提高算法執(zhí)行效率,對(duì)估計(jì)出來(lái)的瞬態(tài)信號(hào)分成很多短時(shí)幀,對(duì)每幀信號(hào)能量進(jìn)行遞減排序。設(shè)定比例因子η,η∈(0,1),以η為基準(zhǔn)對(duì)該幀內(nèi)排序好的兩部分?jǐn)?shù)據(jù)求取能量均值。若二者相差倍數(shù)超過(guò)閾值T1則粗略判定該幀存在較多瞬態(tài)噪聲,記為瞬態(tài)噪聲幀。對(duì)總的語(yǔ)音幀求取瞬態(tài)噪聲幀總和,若超過(guò)閾值則判定該語(yǔ)音含有復(fù)雜瞬態(tài)沖擊噪聲,若不是則輸出含噪語(yǔ)音,后續(xù)算法可對(duì)其進(jìn)行消除。無(wú)需采用瞬態(tài)抑制,有效提高程序運(yùn)行速度、降低復(fù)雜度,若是則進(jìn)行瞬態(tài)噪聲抑制。

        1.3 瞬態(tài)噪聲抑制

        瞬態(tài)干擾抑制的加入使得算法對(duì)鍵盤(pán)敲擊聲、敲門(mén)聲等非平穩(wěn)噪聲具有一定抑制作用,為了驗(yàn)證算法對(duì)非平穩(wěn)瞬態(tài)噪聲的抑制能力,圖3給出了信噪比為 0 dB的瞬態(tài)抑制前后波形圖,通過(guò)對(duì)比圖3(a)、3(b)、3(c),給出了非平穩(wěn)瞬態(tài)噪聲的一個(gè)有效估計(jì),圖3(d)中大部分瞬態(tài)沖擊噪聲被抑制,但是還存在一定的背景噪聲,后續(xù)引入調(diào)制域譜減法對(duì)其進(jìn)行消除。

        圖3 語(yǔ)音增強(qiáng)前后波形對(duì)比圖Fig.3 Waveform comparison chart before and after speech enhancement

        2 調(diào)制域譜減法

        2.1 調(diào)制域

        人們測(cè)試和分析信號(hào)一般通過(guò)時(shí)域和頻域來(lái)實(shí)現(xiàn)。近年來(lái)由于調(diào)頻技術(shù)的快速發(fā)展,調(diào)制域處理在語(yǔ)音編碼、語(yǔ)音識(shí)別等領(lǐng)域的應(yīng)用日益普及[10]。與頻域表示的是頻率與幅度間關(guān)系和時(shí)域表示時(shí)間和幅度間關(guān)系不同,調(diào)制域是時(shí)間和頻率之間的關(guān)系,其相互關(guān)系可表示如圖4[2]。

        圖4 時(shí)域、頻域、調(diào)制域之間的關(guān)系Fig.4 The connection between time domain,frequency domain and modulation domain

        2.2 調(diào)制域譜減

        譜減法是一種直觀而有效的單通道降噪算法,但在低能量語(yǔ)音區(qū)域做譜減處理時(shí)會(huì)引入音樂(lè)噪聲,為了解決上述問(wèn)題,Paliway等[6]在2010年首先提出調(diào)制域譜減算法,通過(guò)在調(diào)制域中執(zhí)行譜減法并合理選擇調(diào)制幀長(zhǎng)度,可以有效避免音樂(lè)噪聲帶來(lái)的語(yǔ)音失真。

        傳統(tǒng)意義上的調(diào)制頻譜可以認(rèn)為是帶通濾波信號(hào)強(qiáng)度包絡(luò)的傅里葉變換,然而在研究中一般采用短時(shí)傅里葉變換代替帶通濾波。其中,與帶通濾波信號(hào)強(qiáng)度包絡(luò)最接近的特征量是幅度譜平方。聲學(xué)幅度譜的包絡(luò)表示聲道的形狀,而調(diào)制譜表示聲道隨時(shí)間變化的情況,正是這些時(shí)間動(dòng)態(tài)變化包含了大量的語(yǔ)音信息,故采用在調(diào)制域中應(yīng)用譜減算法來(lái)使在語(yǔ)音增強(qiáng)過(guò)程中引入的失真最小化。

        假設(shè)噪聲和語(yǔ)音不相關(guān),含噪信號(hào)可表示為:

        其中:x(n)為純凈信號(hào);d(n)是經(jīng)瞬態(tài)抑制后殘余的噪聲,其頻譜不隨時(shí)間變化,n為離散時(shí)間的索引。由于語(yǔ)音的短時(shí)平穩(wěn)特性,對(duì)信號(hào)y(n)進(jìn)行預(yù)處理后做STFT,可得:

        為了直觀地表達(dá)出信號(hào)的幅度譜和相位譜,可將變換后的頻譜表示為極坐標(biāo)的形式:

        式中:k為離散頻率。沿時(shí)間逐幀對(duì)幅度譜|Y(n,k)|進(jìn)行STFT,得到調(diào)制譜:

        其中:|Y(τ,k,m)| 和 ∠ Y(τ,k,m)分別為含噪語(yǔ)音的調(diào)制幅度譜和調(diào)制相位譜。得出調(diào)制頻譜后將傳統(tǒng)譜減法應(yīng)用在調(diào)制域以降低噪聲的干擾,具體譜減表達(dá)式如式(15)所示:

        其中:?是遺忘因子。當(dāng)信號(hào)判定為噪聲段時(shí),更新噪聲估計(jì)。

        2.3 調(diào)制域相位補(bǔ)償

        傳統(tǒng)的譜減法一般只對(duì)幅度譜進(jìn)行修正,而忽略了相位譜對(duì)語(yǔ)音的影響,這是由于長(zhǎng)期以來(lái),研究者認(rèn)為帶噪語(yǔ)音的相位是純凈語(yǔ)音相位的最佳估計(jì),然而在低信噪比環(huán)境下,帶噪語(yǔ)音相位失配會(huì)導(dǎo)致語(yǔ)音變得粗糙,從而影響語(yǔ)音的可懂度。

        最近的研究表明,語(yǔ)音的調(diào)制相位比頻域相位包含有更多的信息,通過(guò)對(duì)調(diào)制相位譜進(jìn)行補(bǔ)償可以在一定程度上提升語(yǔ)音質(zhì)量,減少音樂(lè)噪聲[11]。

        因?yàn)閹г胄盘?hào)為實(shí)信號(hào),故經(jīng)過(guò)STFT得到的調(diào)制譜是共軛對(duì)稱(chēng)的,通過(guò)使用反對(duì)稱(chēng)函數(shù)去修正角度,從而補(bǔ)償相位,相位補(bǔ)償函數(shù)表達(dá)式為

        修正的調(diào)制域相位譜如式(22)所示:

        將最終得到的調(diào)制譜做快速傅里葉逆變換(Inverse Fast Fourier Transform,IFFT)、去窗處理和重疊相加得到增強(qiáng)后的頻域幅度譜[12]。

        最后結(jié)合頻率相位譜再一次進(jìn)行IFFT,即可得到譜減降噪后的語(yǔ)音信號(hào)。

        調(diào)制域譜減原理流程圖如圖5所示。

        為了檢測(cè)瞬態(tài)噪聲抑制結(jié)合調(diào)制域譜減算法的性能,實(shí)驗(yàn)采用了Noisex-92噪聲庫(kù)中的white、f16噪聲以及真實(shí)環(huán)境錄制的機(jī)械鍵盤(pán)聲、敲門(mén)聲,SNR設(shè)為5、0、-5、-10 dB。仿真實(shí)驗(yàn)從語(yǔ)音時(shí)域波形對(duì)比、信噪比提升以及語(yǔ)音質(zhì)量感知評(píng)估測(cè)度(Perceptual Evaluation of Speech Quality,PESQ)三個(gè)方面驗(yàn)證算法的性能。參考算法分別為基本譜減法、多帶譜減法和對(duì)數(shù)最小均方誤差(Logarithm Minimum Mean Square Error,LogMMSE)算法。

        圖5 調(diào)制域譜減法流程圖Fig.5 Flow chart of modulation domain spectrum subtraction

        對(duì)于平穩(wěn)噪聲,上述算法均有不錯(cuò)的效果。因此主要測(cè)試算法在非平穩(wěn)噪聲環(huán)境下的穩(wěn)健性。圖6為一段混合機(jī)械鍵盤(pán)敲擊聲的含噪語(yǔ)音經(jīng)上述各算法處理后的時(shí)域波形圖,其中信噪比為-10 dB。由圖 6(c)~6(e)這三種算法的對(duì)比波形圖可知,三者對(duì)于瞬態(tài)沖擊噪聲的抑制能力較弱,仍舊存在很多沖擊噪聲導(dǎo)致語(yǔ)音失真。由圖 6(f)可知,提出的算法對(duì)于非平穩(wěn)噪聲有很強(qiáng)的抑制能力,同時(shí)對(duì)語(yǔ)音產(chǎn)生的畸變小,殘留噪聲少。

        圖6 不同算法在機(jī)械鍵盤(pán)噪聲環(huán)境下SNR為-10 dB的語(yǔ)音增強(qiáng)效果Fig.6 Enhancement effects of different algorithms in a mechanical keyboard noise environment of SNR is -10 dB

        表 1為各算法在不同環(huán)境下的信噪比提升對(duì)比。從表1中可以看出,結(jié)合瞬態(tài)抑制的調(diào)制域譜減算法相對(duì)于其他算法在信噪比提升上更具優(yōu)勢(shì),尤其是非平穩(wěn)噪聲情況下,相對(duì)于其他算法其抗噪穩(wěn)健性強(qiáng),有利于后續(xù)端點(diǎn)檢測(cè)的判定。

        表1 各算法在不同環(huán)境下的信噪比提升前后對(duì)比Table 1 Comparison of SNR enhancement between different algorithms in different environments

        為了進(jìn)一步驗(yàn)證算法的性能,采用反映語(yǔ)音可懂度的感知語(yǔ)音質(zhì)量評(píng)估測(cè)度(PESQ),PESQ的評(píng)分范圍為[-0.5,4.5],通常情況下分?jǐn)?shù)越高,語(yǔ)音可懂度越好,越有利于后續(xù)處理。

        圖7顯示了各算法在機(jī)械鍵盤(pán)噪聲環(huán)境下不同SNR時(shí)的PESQ得分。由圖7可知,隨著SNR變差,相關(guān)的PESQ分?jǐn)?shù)總是變低,表明PESQ是反映語(yǔ)音中嘈雜失真程度的適當(dāng)度量。相比參考算法,提出的算法在所選取的機(jī)械噪聲環(huán)境中取得了良好的語(yǔ)音增強(qiáng)效果,減少了語(yǔ)音畸變。

        算法在語(yǔ)音時(shí)域波形圖、信噪比提升以及感知語(yǔ)音質(zhì)量評(píng)估測(cè)度3個(gè)指標(biāo)中均表現(xiàn)良好,故本文算法將其用于前端消噪以提升信噪比,減少語(yǔ)音失真,從而為后續(xù)端點(diǎn)檢測(cè)提供良好基礎(chǔ)。

        圖7 各算法在機(jī)械鍵盤(pán)噪聲環(huán)境下感知語(yǔ)音質(zhì)量評(píng)估(PESQ)測(cè)度Fig.7 The perceptual speech quality assessment(PESQ)metrics of different algorithms in a mechanical keyboard noise environment

        3 PNCC倒譜距離端點(diǎn)檢測(cè)

        3.1 功率歸一化倒譜系數(shù)

        特征提取是語(yǔ)音信號(hào)處理中的關(guān)鍵步驟,其目的是提取有效的聲學(xué)特征參數(shù)集。目前使用最廣泛的特征提取算法是梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstrum Coefficients,MFCC)[13],但MFCC最具挑戰(zhàn)性的問(wèn)題之一是在噪聲環(huán)境較理想的情況下識(shí)別精度較高,但是在低信噪比環(huán)境下其識(shí)別準(zhǔn)確率會(huì)急劇下降,無(wú)法滿足實(shí)際應(yīng)用需求。

        最近由美國(guó)科學(xué)家Kim等[7]提出的功率歸一化倒譜系數(shù)(Power Normalized Cepstrum Coefficient,PNCC)特征提取算法已經(jīng)被開(kāi)發(fā)用于增強(qiáng)語(yǔ)音識(shí)別系統(tǒng)在噪聲環(huán)境中的魯棒性,其可以看作在MFCC基礎(chǔ)上改進(jìn)的一種特征提取算法,與MFCC相比,在不損失識(shí)別精度的情況下,語(yǔ)音識(shí)別系統(tǒng)的抗噪魯棒性有了一定提升[14],具體的PNCC特征提取步驟如下:

        (1)對(duì)語(yǔ)音進(jìn)行預(yù)處理,包括采樣量化、預(yù)加重、分幀加窗和STFT等。

        (2)對(duì)時(shí)頻域轉(zhuǎn)換分析后的序列進(jìn)行功率譜計(jì)算,其公式為

        其中:FT(ω)是經(jīng)過(guò)短時(shí)傅里葉變換以后得到的值。

        (3)采用伽瑪通(Gammatone)聽(tīng)覺(jué)濾波器組對(duì)獲得的功率譜進(jìn)行濾波,該濾波器組的時(shí)域沖激響應(yīng)為

        其中:n為濾波器階數(shù);b為濾波器帶寬。

        (4)通過(guò)計(jì)算長(zhǎng)時(shí)幀功率、采用非對(duì)稱(chēng)濾波和臨時(shí)掩蔽抑制背景噪聲,長(zhǎng)時(shí)幀功率計(jì)算公式為

        其中非對(duì)稱(chēng)濾波器公式為

        (5)采用時(shí)-頻域歸一化處理調(diào)整功率,過(guò)程為

        (6)進(jìn)一步將經(jīng)過(guò)冪函數(shù)非線性處理后的信號(hào)序列通過(guò)離散余弦變換(Discrete Cosine Transformation,DCT)進(jìn)行特征降維得到特征參數(shù)。

        (7)最后通過(guò)倒譜均值歸一化(Cepstrum Mean Normalization,CMN)[16]減去短時(shí)幀倒譜域上的信道均值響應(yīng),從而避免倒譜域上信道卷積噪聲的干擾,最終得到PNCC特征參數(shù)。

        MFCC和PNCC算法流程圖如圖8所示。

        由圖8對(duì)比MFCC特征提取算法可知,PNCC算法改進(jìn)的特性包括:

        (1)PNCC使用基于Gammatone濾波器形狀的頻率加權(quán),其臨界頻帶中心頻率附近的聲音特征比三角濾波器更加集中,且兩側(cè)過(guò)渡平滑可減少相鄰頻帶之間頻譜能量的泄漏。

        (2)在MFCC提取過(guò)程中,當(dāng)輸入能量值較小時(shí)由于對(duì)數(shù)函數(shù)的缺陷可能導(dǎo)致輸出能量的劇烈變化。而 PNCC通過(guò)精確選擇冪律非線性來(lái)替代MFCC處理中的對(duì)數(shù)非線性,以近似模擬信號(hào)強(qiáng)度和聽(tīng)覺(jué)-神經(jīng)發(fā)射率之間的非線性關(guān)系。生理學(xué)家認(rèn)為,這是對(duì)給定的短時(shí)信號(hào)強(qiáng)度的測(cè)量,通過(guò)這種非線性來(lái)抑制小信號(hào)及其可變性以保證魯棒性[7]。

        圖8 MFCC、PNCC特征提取算法結(jié)構(gòu)Fig.8 Structure of MFCC and PNCC feature extraction algorithm

        (3)引入抑制背景激勵(lì)的非對(duì)稱(chēng)濾波算法,然后通過(guò)在低于包絡(luò)線時(shí)抑制瞬時(shí)功率來(lái)執(zhí)行時(shí)間掩蔽。

        3.2 功率歸一化倒譜距離的端點(diǎn)檢測(cè)算法

        1993年,英國(guó)的Haigh等[17]將加權(quán)歐式距離引入倒譜領(lǐng)域,定義了倒譜距離,并首次提出了基于倒譜距離的端點(diǎn)檢測(cè)算法,隨后又出現(xiàn)了一些改進(jìn)方案,例如自適應(yīng)倒譜距離[18]、MFCC倒譜距離[19]等。語(yǔ)音幀和噪音幀的倒譜差異較大,故采用倒譜距離作為端點(diǎn)檢測(cè)參數(shù)。

        傳統(tǒng)的倒譜距離抗噪聲性能差,檢測(cè)效果不理想,因此有必要對(duì)傳統(tǒng)算法進(jìn)行改進(jìn)以增強(qiáng)低信噪比環(huán)境下的檢測(cè)性能?;诖耍疚难芯苛艘环N采用非平穩(wěn)噪聲抑制和調(diào)制域譜減進(jìn)行前端增強(qiáng)并結(jié)合功率歸一化倒譜距離的端點(diǎn)檢測(cè)算法。該算法能有效區(qū)分語(yǔ)音和噪聲,抗噪魯棒性好,其中PNCC采用 Gammatone聽(tīng)覺(jué)濾波器組,可以提供人類(lèi)聽(tīng)覺(jué)感知的精確表示。

        因此,選用非平穩(wěn)噪聲抑制結(jié)合調(diào)制域譜減降低噪聲的干擾,再采用PNCC倒譜距離可以在檢測(cè)準(zhǔn)確度方面提供實(shí)質(zhì)性的改進(jìn)。

        本文算法具體步驟如下:

        (1)對(duì)含噪語(yǔ)音進(jìn)行瞬態(tài)噪聲抑制再結(jié)合調(diào)制域譜減并補(bǔ)償相位得到增強(qiáng)后的語(yǔ)音。

        式中:N為功率歸一化倒譜的分析階數(shù),本文采用16階。

        (3)由式(33)計(jì)算出 PNCC倒譜距離,最后采用單參數(shù)雙門(mén)限判決方法,依據(jù)經(jīng)過(guò)平滑后的數(shù)據(jù)值選定兩個(gè)閾值 T1、T2,當(dāng) PNCC倒譜距離高于T2閾值時(shí)確定是語(yǔ)音,再依據(jù)與T1值的大小來(lái)判定語(yǔ)音端點(diǎn)。

        4 實(shí)驗(yàn)與分析

        4.1 實(shí)驗(yàn)配置

        實(shí)驗(yàn)使用 M-Audio多路音頻設(shè)備在相對(duì)安靜的辦公室采集語(yǔ)音數(shù)據(jù)。為模擬智能音箱場(chǎng)景,分別在1~4 m,全方位進(jìn)行音箱命令詞錄制,每條語(yǔ)音時(shí)長(zhǎng)約為4~5 s,其中非平穩(wěn)噪聲是模擬辦公環(huán)境中的機(jī)械鍵盤(pán)聲以及敲門(mén)聲真實(shí)錄制的。為了直觀地對(duì)比算法的端點(diǎn)檢測(cè)結(jié)果標(biāo)定,采用的語(yǔ)音內(nèi)容為三個(gè)命令詞:“小白小白”“打開(kāi)音箱”“小白小白”的語(yǔ)音文件。采樣頻率為 16 kHz、精度為16 bit,采用漢明窗進(jìn)行分幀。將語(yǔ)音與 Noise-92噪聲庫(kù)中的white、f16以及錄制的機(jī)械鍵盤(pán)、敲門(mén)聲4種噪聲分別混合成SNR為5、0、-5、-10 dB的帶噪語(yǔ)音進(jìn)行測(cè)試以評(píng)估各算法性能。

        4.2 實(shí)驗(yàn)結(jié)果與分析

        為驗(yàn)證本文算法在低信噪比下的可行性,分別從譜減、倒譜距離兩方面有針對(duì)性地選取了4個(gè)對(duì)比算法,分別是:王瑤等[2]于2018年提出的調(diào)制域譜減結(jié)合對(duì)數(shù)能量和自相關(guān)函數(shù)峰值比的端點(diǎn)檢測(cè)算法,該算法使用對(duì)數(shù)能量替代端點(diǎn)檢測(cè)中經(jīng)典的短時(shí)平均能量,使用自相關(guān)函數(shù)主峰比值替代平均過(guò)零率;王群等[19]于 2017年提出的調(diào)制域譜減和對(duì)數(shù)能量子帶譜熵相結(jié)合的端點(diǎn)檢測(cè)算法;朱春利等[20]于 2019年提出的基于多特征融合與動(dòng)態(tài)閾值的端點(diǎn)檢測(cè)算法,該算法先經(jīng)過(guò)譜減再結(jié)合MFCC倒譜距離、均勻子帶頻帶方差特征,利用雙參數(shù)雙門(mén)限法進(jìn)行端點(diǎn)判定;多帶譜減結(jié)合倒譜距離的端點(diǎn)檢測(cè)算法。其中文獻(xiàn)[2]和文獻(xiàn)[19]與本文的相似點(diǎn)是前端增強(qiáng)均采用了調(diào)制域譜減,所不同的是本文算法增加了一個(gè)非平穩(wěn)噪聲抑制模塊,使算法具有更強(qiáng)的穩(wěn)健性,同時(shí)各算法端點(diǎn)檢測(cè)參數(shù)是針對(duì)不同傳統(tǒng)方法的分別改進(jìn)。為方便起見(jiàn),上述4種算法簡(jiǎn)記為文獻(xiàn)[2]算法、文獻(xiàn)[19]算法、文獻(xiàn)[20]算法以及多帶譜減結(jié)合倒譜距離法。

        測(cè)試語(yǔ)音在SNR為-10 dB的機(jī)械鍵盤(pán)噪聲環(huán)境下經(jīng)各算法的端點(diǎn)檢測(cè)結(jié)果顯示如圖9~13所示。

        圖9 文獻(xiàn)[2]算法端點(diǎn)檢測(cè)結(jié)果Fig.9 The endpoint detection results of the method in Ref.[2]

        圖10 多帶譜減結(jié)合倒譜距離法端點(diǎn)檢測(cè)結(jié)果Fig.10 Endpoint detection results by multiband spectrum subtraction combined with cepstrum distance method

        圖11 文獻(xiàn)[20]算法端點(diǎn)檢測(cè)結(jié)果Fig.11 The endpoint detection results of the algorithm in Ref.[20]

        圖12 文獻(xiàn)[21]算法端點(diǎn)檢測(cè)結(jié)果Fig.12 The endpoint detection results of the algorithm in Ref.[21]

        圖9~13中的圖(a)為原始語(yǔ)音波形,為方便對(duì)比,將各算法得出的檢測(cè)結(jié)果也在圖(a)中表示,其中黑色實(shí)線代表語(yǔ)音的開(kāi)始,點(diǎn)劃線代表語(yǔ)音的結(jié)束。圖(b)為-10 dB含噪語(yǔ)音。由圖9~13可知,在低信噪比環(huán)境下,由于不同說(shuō)話人換氣長(zhǎng)度不一致,字詞間隔的語(yǔ)音能量可能會(huì)被嘈雜環(huán)境中的噪聲掩蓋從而被誤判為噪聲,導(dǎo)致丟失部分語(yǔ)音。圖9中文獻(xiàn)[2]算法對(duì)語(yǔ)音端點(diǎn)的判斷基本正確,但是在開(kāi)頭和結(jié)尾處將過(guò)大的沖擊噪聲錯(cuò)誤地判定為語(yǔ)音。顯然圖 10中的多帶譜減結(jié)合倒譜距離端點(diǎn)檢測(cè)算法也存在類(lèi)似問(wèn)題,而且在語(yǔ)音段出現(xiàn)了多處間斷,其對(duì)端點(diǎn)的判定不理想。圖11中文獻(xiàn)[19]由于部分語(yǔ)音能量較低,出現(xiàn)了漏檢,對(duì)于語(yǔ)音端點(diǎn)邊界定位不精確。圖12中文獻(xiàn)[20]對(duì)語(yǔ)音開(kāi)始和結(jié)束位置判決精度不高,出現(xiàn)了大量的錯(cuò)檢,把噪聲判定為語(yǔ)音。而圖 13所示的本文算法在相應(yīng)條件下有效減少了錯(cuò)檢和漏檢率。這是因?yàn)椴捎迷肼曇种扑惴ㄏ舜罅咳菀妆徽`判為語(yǔ)音的瞬態(tài)沖擊噪聲,再經(jīng)過(guò)調(diào)制域譜減消除殘余噪聲,有效提高了信噪比并避免了音樂(lè)噪聲,而PNCC倒譜系數(shù)本身較 MFCC倒譜系數(shù)具有一定的抗噪性,且PNCC倒譜距離曲線在噪聲段波形平坦,過(guò)渡到語(yǔ)音段時(shí),曲線窄而陡峭,因此可以提高端點(diǎn)位置判決精度。由于語(yǔ)音是非平穩(wěn)信號(hào),PNCC采用的語(yǔ)音長(zhǎng)時(shí)幀信息可用于分析其非平穩(wěn)性,可有效彌補(bǔ)倒譜距離特征在非平穩(wěn)噪聲下性能不佳的缺陷,同時(shí)算法將“小白小白”等命令判定為一段語(yǔ)音,而不是將每個(gè)字詞單個(gè)檢出,保證了語(yǔ)句的連貫性。

        圖13 本文算法端點(diǎn)檢測(cè)結(jié)果Fig.13 The endpoint detection results of the algorithm in this paper

        為了更直觀地評(píng)估各算法的檢測(cè)準(zhǔn)確率,分別對(duì)4種噪聲環(huán)境下錄制的語(yǔ)音庫(kù)文件進(jìn)行測(cè)試,取20條錄制的語(yǔ)音端點(diǎn)檢測(cè)正確率的平均值進(jìn)行對(duì)比,其中正確率可用下式計(jì)算得到[20]:

        錯(cuò)誤幀數(shù)=噪聲幀檢測(cè)為語(yǔ)音幀數(shù)+語(yǔ)音幀檢測(cè)為噪聲幀數(shù);

        正確率=(總幀數(shù)-錯(cuò)誤幀數(shù))÷總幀數(shù)×100%

        圖14~17分別為white噪聲、f16噪聲、機(jī)械鍵盤(pán)噪聲、敲門(mén)噪聲環(huán)境下各算法的端點(diǎn)檢測(cè)正確率對(duì)比圖。

        圖14 不同算法在white噪聲環(huán)境下端點(diǎn)檢測(cè)正確率比較Fig.14 Accuracy comparison of endpoint detection by different algorithms in white noise environment

        圖15 不同算法在f16噪聲環(huán)境下端點(diǎn)檢測(cè)正確率比較Fig.15 Accuracy comparison of endpoint detection by different algorithms in f16 noise environment

        圖16 不同算法在機(jī)械鍵盤(pán)噪聲環(huán)境下端點(diǎn)檢測(cè)正確率比較Fig.16 Accuracy comparison of endpoint detection by different algorithms in mechanical keyboard noise environment

        對(duì)比圖 14~17可知,本文研究的基于瞬態(tài)噪聲抑制結(jié)合調(diào)制域譜減再通過(guò)PNCC倒譜距離進(jìn)行端點(diǎn)檢測(cè)的算法在測(cè)試的四種噪聲環(huán)境下相對(duì)于對(duì)比算法檢測(cè)準(zhǔn)確率較高。圖14和圖15是在平穩(wěn)噪聲環(huán)境下的檢測(cè)結(jié)果,由圖可知,本文算法在各信噪比條件下均優(yōu)于對(duì)比算法,其中圖 15中多帶譜減結(jié)合倒譜距離在0 dB、f16噪聲環(huán)境下與本文算法相當(dāng)。原因是本文檢測(cè)為平穩(wěn)噪聲,故只采用調(diào)制域譜減進(jìn)行前端增強(qiáng),根據(jù)前面實(shí)驗(yàn)可知調(diào)制域譜減與多帶譜減信噪比提升相差不大,實(shí)驗(yàn)結(jié)果前后相符。圖16和圖17表示的是非平穩(wěn)噪聲環(huán)境下的結(jié)果,從圖中很明顯可以看出本文算法較對(duì)比算法有了大幅度提升,尤其在-10 dB惡劣環(huán)境下性能提升約4%~10%,說(shuō)明算法可改善非平穩(wěn)噪聲干擾。以上實(shí)驗(yàn)有效驗(yàn)證了本文算法的抗噪魯棒性。

        圖17 不同算法在敲擊噪聲環(huán)境下端點(diǎn)檢測(cè)正確率比較Fig.17 Accuracy comparison of endpoint detection by different algorithms in tapping noise environment

        4.3 本文算法的適用環(huán)境和后續(xù)研究

        非平穩(wěn)噪聲環(huán)境下的算法性能是人們關(guān)注和研究的重點(diǎn)之一,實(shí)驗(yàn)結(jié)果表明本文算法適用于處理瞬態(tài)沖擊噪聲環(huán)境下的語(yǔ)音,其具有一定的抗噪穩(wěn)健性,對(duì)低信噪比下的端點(diǎn)檢測(cè)仍然有效。

        由于本文算法結(jié)合了瞬態(tài)噪聲抑制、調(diào)制域譜減以及PNCC倒譜距離,而PNCC則是在MFCC基礎(chǔ)上進(jìn)行算法改進(jìn)的,因此本文算法復(fù)雜度要比一般的單參數(shù)算法稍高,在平穩(wěn)噪聲環(huán)境下本文算法與文獻(xiàn)[2]、文獻(xiàn)[20]均采用了調(diào)制域譜減這一相對(duì)復(fù)雜有效的算法,且不執(zhí)行瞬態(tài)噪聲抑制模塊,三者的運(yùn)行時(shí)間相當(dāng);文獻(xiàn)[21]、多帶譜減結(jié)合倒譜距離這兩個(gè)算法的耗時(shí)相對(duì)較少,然而在非平穩(wěn)噪聲環(huán)境下本文算法采用的瞬態(tài)噪聲抑制在確保精確度的同時(shí)很難兼顧實(shí)時(shí)性。文中為了提高算法的實(shí)時(shí)性,通過(guò)對(duì)噪聲類(lèi)型的判斷決定是否開(kāi)啟瞬態(tài)噪聲抑制,可在一定程度上優(yōu)化算法,同時(shí)隨著后續(xù)計(jì)算機(jī)硬件運(yùn)算能力的提高,有望能夠改善此問(wèn)題。

        因此,如何在保證精確度的前提下優(yōu)化算法結(jié)構(gòu),縮短運(yùn)行時(shí)間也是本文后續(xù)研究的重點(diǎn)。

        5 結(jié) 論

        在語(yǔ)音端點(diǎn)檢測(cè)中,當(dāng)信號(hào)處于低信噪比環(huán)境下,傳統(tǒng)的倒譜距離法檢測(cè)性能還有待提高,本文在傳統(tǒng)倒譜距離端點(diǎn)檢測(cè)的基礎(chǔ)上研究了一種瞬態(tài)噪聲抑制結(jié)合調(diào)制域譜減再通過(guò)PNCC倒譜距離進(jìn)行端點(diǎn)檢測(cè)的算法,該算法首先通過(guò)抑制非平穩(wěn)噪聲再使用調(diào)制域譜減消除殘余噪聲,再通過(guò)PNCC倒譜距離進(jìn)行端點(diǎn)檢測(cè)。

        實(shí)驗(yàn)證明該算法在低信噪比下可以保持較高的檢測(cè)準(zhǔn)確率,可用于改善智能音箱語(yǔ)音識(shí)別系統(tǒng)在復(fù)雜噪聲環(huán)境下的性能,減少功耗,具有一定的實(shí)用價(jià)值。

        猜你喜歡
        端點(diǎn)瞬態(tài)信噪比
        非特征端點(diǎn)條件下PM函數(shù)的迭代根
        高壓感應(yīng)電動(dòng)機(jī)斷電重啟時(shí)的瞬態(tài)仿真
        基于深度學(xué)習(xí)的無(wú)人機(jī)數(shù)據(jù)鏈信噪比估計(jì)算法
        不等式求解過(guò)程中端點(diǎn)的確定
        低信噪比下LFMCW信號(hào)調(diào)頻參數(shù)估計(jì)
        低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
        參數(shù)型Marcinkiewicz積分算子及其交換子的加權(quán)端點(diǎn)估計(jì)
        基丁能雖匹配延拓法LMD端點(diǎn)效應(yīng)處理
        十億像素瞬態(tài)成像系統(tǒng)實(shí)時(shí)圖像拼接
        基于瞬態(tài)流場(chǎng)計(jì)算的滑動(dòng)軸承靜平衡位置求解
        亚洲日韩国产一区二区三区在线| 在线日本高清日本免费| 亚洲日本国产一区二区三区| 野花视频在线观看免费| 天天综合网网欲色| 99视频30精品视频在线观看| 久久99精品国产99久久6男男| 亚洲先锋影院一区二区| 91国内偷拍一区二区三区| 亚洲熟女少妇精品综合| 老妇高潮潮喷到猛进猛出| 99久久精品日本一区二区免费 | 超级碰碰人妻中文字幕| 伊人久久亚洲综合av影院| 黄污在线观看一区二区三区三州| 欧美人妻aⅴ中文字幕| 少妇人妻200篇白洁| 国产精品98视频全部国产| 白丝美女扒开内露出内裤视频| 国产亚洲精品久久情侣| 国模吧无码一区二区三区| 亚洲熟妇无码av另类vr影视| 99色网站| 国产亚洲精品在线播放| 狠狠躁夜夜躁人人爽超碰97香蕉| 极品av麻豆国产在线观看| 日韩中文在线视频| 男女搞黄在线观看视频| 中文字幕亚洲视频一区| 妺妺窝人体色www聚色窝仙踪| 老妇肥熟凸凹丰满刺激| 无码中文字幕专区一二三| 亚洲性av少妇中文字幕| 国产成人精品无码片区在线观看| 欧美另类高清zo欧美| 久久精品国产亚洲综合色| 久久国产女同一区二区| 国产精品亚洲第一区二区三区 | 国产无遮挡裸体免费视频| 欧美精品日韩一区二区三区 | 亚洲精品乱码久久久久久麻豆不卡 |