亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于盲源分離和噪聲抑制的語音信號識別

2019-01-07 12:04:30

計算機測量與控制 2018年12期

(南京理工大學計算機科學與工程學院,南京 210094)

0 引言

在多個發(fā)聲者的普適環(huán)境中，正確地調(diào)整語音識別模型以提高語音識別精度一直是一項挑戰(zhàn)。從噪聲環(huán)境中恢復干凈的語音對于語音增強、語音識別和許多其它語音相關應用具有重要意義。在現(xiàn)實生活中，有許多噪聲源，如環(huán)境、信道失真和揚聲器可變性[1]。因此，已經(jīng)有許多算法用于消除語音中的噪聲[2-4]。這些算法大多需要額外的噪聲估計，并且只適用于聽覺效果而不適用于自動語音識別(ASR)。

本文介紹了一種自優(yōu)化語音活動檢測(VAD)算法，以及信號分離后簡單但有效的噪聲消除過程，以提高語音識別率。所提出的VAD算法的關鍵是不需要對干凈的語音變化進行先驗估計。此外，用于語音/非語音判決的閾值是由噪聲本身所產(chǎn)生，即自優(yōu)化過程。對于噪聲去除過程是基于廣泛已知的頻譜減法(SS)[5]，而不需要任何額外的模型或訓練過程。最后利用NOIZEUS數(shù)據(jù)庫將VAD算法與SS方法、零交叉能量法(ZCE)[6]、熵權法[7]進行了性能比較。

1 基于SSTFT的盲源分離(BSS)

假設Sn(t),n=1,...,N是未知的語音源，其中N是發(fā)聲者的數(shù)目。M-傳感器麥克風陣列的布置是線性的。輸出向量xm(t),m=1,...,M可以建模為：

x(t)=As(t)+n(t)

(1)

其中:A表示混合矩陣，x(t)=[x1(t),...,xM(t)]T是接收混合的向量，s(t)包含多個語音源，n(t)是加性高斯白噪聲向量，T是轉(zhuǎn)置運算符。

基于上述信號模型的空間短時傅立葉變換(SSTFT)BSS算法的過程如下：

1)計算公式(1)中混合x(t)的STFT，得到每個時頻(TF)點(t,f)的M×1向量Sx(t,f)：

Sx(t,f)=ASs(t,f)+Sn(t,f)

(2)

其中:下標S表示STFT運算符。

2)基于每個時刻的標準來檢測自動源TF點，即TF域中語音源的自動定位：

(3)

3)基于SSTFT的算法的前提是估計源N的數(shù)量以及混合矩陣A。本文應用文獻[8]中提出的方法，嘗試檢測一些主導的TF點，即具有主要能量的源點與其他源和噪聲能量的點相比較。應用均值漂移聚類方法[9]在不知道源的數(shù)量的情況下對主導TF點進行分類。通過對同一簇中的所有TF點的空間矢量求平均來估計混合矩陣A，并且通過計算得到合成簇的數(shù)量來估計N。

4)基于檢測到的自動源TF點集Ω和估計混合矩陣A，應用基于子空間的方法來估計每個源的STFT值[10]。假設在每個自動源TF點屬于點集Ω處最多存在K

(4)

(5)

(6)

其中:+表示摩爾-彭羅斯的偽逆運算符。Ω中的每個自動源TF點處的能量分配給相應源的K個STFT值。

6)每個源通過逆STFT[11]利用公式(6)估計的STFT值進行恢復。

2 噪聲評估

噪聲和語音通常在統(tǒng)計學上是相互獨立并且具有不同的統(tǒng)計特性[12]。噪聲更為對稱分布且始終呈現(xiàn)，而語音由于其有效/無效周期，通常呈現(xiàn)出非平穩(wěn)性。語音的主動/非主動轉(zhuǎn)換使語音能量更集中在語音活動期。

2.1 噪聲描述

噪聲和語音的不同行為使得基于語音頻譜的最小/最大值來跟蹤語音或噪聲成為可能。具有高能量的部分更可能是語音，而低能部分更可能是噪聲，語音幅度大于噪聲幅度，這使得可以通過分析有噪語音的最大值來檢測語音。與噪聲相比，清晰語音幅度的概率分布函數(shù)在“尾部”部分更平坦，這意味著清晰語音幅度更可能遠離其平均值。即使對于信噪比SNR=0 dB，也可以證明信號的峰值部分更可能來自語音。

2.2 算法推導

假設語音被不相關的加性高斯噪聲所扭曲，VAD的兩個假設是:

H0：語音缺失：Y=N+R；

H1：語音呈現(xiàn)：Y=S+N+R。

其中：Y，N，S和R分別表示來自盲源分離過程的頻域噪聲話音，噪聲，干凈話音和殘余話音。H0和H1的概率密度函數(shù)由下式給出：

(7)

(8)

本文還需要假設兩個條件PN(Y)/P(Y)<ε和PSPN，其中ε是0.01和0.2之間的啟發(fā)式參數(shù)。定義則第一個條件可以簡化為：

(9)

因此，可以定義：

(10)

其中:Yε可以作為更直接的閾值。頻率等級VAD標志可以表示如下：

(11)

計算語音概率密度函數(shù)，可以得到|Yε|2。使用公式(11)實現(xiàn)二進制VAD標志。VAD算法適用于抑制噪聲，并且可以有效區(qū)分噪聲和濁音。為了提高自動語音識別率，本文仍然需要跟蹤噪聲能量的變化，并更新包括語音幀在內(nèi)的所有幀的噪聲能量。

3 噪聲抑制

在VAD算法的設計中，由于語音信號是高度非平穩(wěn)，軟判決算法優(yōu)于二進制判決。沒有明確的邊界標記發(fā)音的開始或結(jié)束，因此，判別信息被用作軟判決閾值。

3.1 子帶能量計算

能量計算在逐幀的基礎上進行，每個幀乘以適當?shù)拇翱谝詼p少來自快速傅立葉變換(FFT)的頻率混疊。其中，50%重疊意味著產(chǎn)生幀長度一半的初始延遲，應仔細選擇框架尺寸。假設采樣率為FS，幀大小為N=2m，時間分辨率為N/FS，頻率分辨率為FS/N。顯然，較大的幀尺寸可以提供更好的頻率分辨率，但時間分辨率較差。通常，對于FS為8 000和16 000 Hz，對應合適的幀大小N分別為256和512。

信號被分為16個子頻帶。當幀的大小為256時，第i個子頻帶的能量為：

(12)

(13)

利用幀能量和子帶能量計算基于當前幀和噪聲幀的子帶能量分布概率來計算識別信息。假設隨機變量Y可能是a1,...,ak的值。Y的概率分布與假設H0和H1有關。設P0(ak)=P(ak|H0)，P1(ak)=P(ak|H1)，判別信息定義如下：

(14)

可以利用子帶能量分布來計算當前幀和噪聲幀的相似性：

(15)

(16)

3.2 閾值更新

閾值通過以下方式更新：

1)選擇前5幀為噪聲/非語音幀。

2)語音信號周期的前一幀認為是噪聲幀。

3)當前一幀確定為是噪聲幀時，如果當前幀滿足|Y|2≤|Yε|2，則當前幀將視為噪聲幀。如果當前幀滿足|Y|2>|Yε|2和d>Tr，則當前幀將視為起始位置幀，并與接下來的6幀進行比較。如果6幀也滿足|Y|2>|Yε|2和d>Tr，則可以將起始位置幀作為語音周期的起始位置。否則，當前幀仍然認為是噪聲幀。

4)當前一幀是語音幀時，如果當前幀滿足|Y|2>|Yε|2，則仍然是語音幀。如果當前幀滿足|Y|2≤|Yε|2和d

5)在上述確定的每個步驟中，噪聲閾值將進行更新：

THn=THn-1(1-λ)+|Y|2λ

(17)

其中:THn表示第n幀的更新后的噪聲閾值，|Y|2為當前語音的概率分布函數(shù)值，λ為噪聲更新因子，該噪聲更新因子由判別信息計算。

6)如果所有數(shù)據(jù)都已處理完畢，則自適應調(diào)整結(jié)束。

3.3 改進的VAD和噪聲抑制

語音信號Y(w)通常被加性高斯噪聲N(w)所破壞。理論上，可以通過估計其功率并使用以下濾波器對噪聲信號進行濾波來實現(xiàn)最佳地消除噪聲：

H(w)=(|Y(w)|-|N(w)|)/Y(w)

(19)

本文所提出的VAD將檢測噪聲幀，并從語音信號中減去噪聲譜，試圖在ASR的特征提取過程中保留更多的信息，并消除在特征提取和模板匹配期間提供錯誤信息的噪聲。由于語音信號總是非平穩(wěn)的，所以作出語音或噪聲的二元決策變得相當困難。因此，本文通過計算語音活動評分(VAS)來估計語音，當導出的VAS表示語音和噪聲的混合時，可以實現(xiàn)平滑的處理轉(zhuǎn)換。

框架下的VAS是由兩個方面決定：第一個涉及語音的可理解性，通過計數(shù)語音頻帶中的Bark頻帶的數(shù)量來近似量化，該頻帶的功率超過估計噪聲的相應Bark頻帶的數(shù)量。語音頻帶范圍從第4到第14個Bark頻帶。第二個是當前幀相對于估計噪聲功率的相對功率，幀的相對功率越高，其包含語音的可能性就越大。最后的VAS僅僅是這兩個方面的分數(shù)之和。將參數(shù)ε設置為VAS的倒數(shù)并對每個幀進行更新。連續(xù)VAS比固定參數(shù)提供更大的靈活性。即使需要對幀是否為純噪聲幀進行二元判決，仍然可以在一定的值上處理改變和收斂。

4 發(fā)聲者和語音識別

本文將從前端特征提取，由詞單元和詞模板組成的訓練過程以及最終識別過程闡述了整個系統(tǒng)。在VAD和噪聲抑制之后，將在ASR系統(tǒng)中對處理后的語音信號進行評估。

4.1 前端特征提取

用于此識別任務的特征向量是24 MFCC。幀窗口大小為20 ms，語音在16 kHz下采樣并具有16 bit分辨率。

4.2 分詞單元生成

訓練過程的第一部分要求用戶記錄他們大約兩分鐘的演講。建議閱讀語音豐富的句子，以獲得更全面的分詞單元。在這個實驗中，用戶被要求閱讀一系列哈佛大學經(jīng)典語錄。通過使用C均值算法得到的MFCC聚類為64個不同的單元，大致對應于分詞的集合。然后使用4種高斯混合模型對這些聚類中的每一個進行建模。在這個實驗中，重新聚類不會在分詞模板生成過程中完成。為了簡化模型，進一步計算生成64×64的Bhattacharyya距離矩陣。這個過程如圖1所示。

圖1 分詞單元生成

4.3 語言模板生成

在這一步中，要識別的單詞被記錄。如圖2所示，要求用戶對單詞進行發(fā)音，并且基于最大似然估計方式，模板生成將這些單詞轉(zhuǎn)換為子單詞單元索引序列。為了避免對單詞進行過分割，只有當與相鄰狀態(tài)存在顯著的似然差異余量時才允許改變子單詞索引，從而采用過渡啟發(fā)式。用戶想要向系統(tǒng)錄入每個單詞都必須重復該過程。

圖2 語言模板生成

4.4 匹配過程識別

假設系統(tǒng)中有M個詞模板，識別過程計算由模板生成的用戶輸入特征向量X輸入的概率，則選擇的詞是最大似然的詞：

m*=argmaxpm(Xinput)

(20)

模板可以看作是高斯混合模型(GMM)序列，這使得隨著詞表模板數(shù)目的增加，pm(Xinput)計算越來越復雜，并且很難觀察所提出的VAD算法[13]的效果。本文使用Bhattacharyya距離矩陣[14]將輸入特征轉(zhuǎn)換為分詞單元索引序列。兩個概率分布p1和p2之間的Bhattacharyya距離矩陣為：

(21)

測試實驗中的每個分詞單元使用4個混合GMM建模，因此它們之間的距離為：

(22)

使用Levenshtein距離法計算所有64個分詞單元的距離。通過原始模式匹配算法的識別任務的平均運行時間與模板的數(shù)目成比例地增加。對于Bhattacharyya編輯距離方法，當模板數(shù)量增加時，運行時間非常穩(wěn)定，特別適用于實時識別系統(tǒng)，圖3給出了其匹配過程。

圖3 識別匹配過程

發(fā)聲者識別過程與匹配過程相似，有兩個主要的區(qū)別：(1)只有在發(fā)聲者識別過程中才加載所選擇的說話者配置文件，由于發(fā)聲者的身份已知。在發(fā)聲者識別中，對發(fā)聲者配置文件進行輪詢，并將輸入與每個發(fā)聲者的相應激活關鍵字注冊進行比較。(2)不考慮編輯距離，發(fā)聲者識別過程在給定模板中的GMM分布序列的情況下使用輸入的后驗概率。這種方法使在設定接受閾值時具有更大的靈活性。

5 實驗研究

5.1 算法應用與分析

在本文的案例中，使用2個麥克風接收來自4個發(fā)聲者的混合聲音。在分離的信號中，通過使用自動發(fā)聲者識別選擇一個發(fā)聲者的聲音，然后進行隔離單詞識別測試。

圖4給出了使用上述過程從2個麥克風接收到的信號中分離出4個發(fā)聲者聲音的結(jié)果，兩個麥克風的噪聲混合如圖5所示。

圖4 從4個發(fā)聲者中分離出來的聲音

圖5 由2個麥克風接收的混合語音信號

由圖4可見，4個發(fā)聲者的振幅隨時間的變化趨勢相似，僅在振幅的數(shù)值上有微小差異，說明4個發(fā)聲者在信號分離過程中有語言重疊部分，但通過分詞單元匹配識別，仍然能夠分辨出不同發(fā)聲者的語音信號。圖5可見，2個麥克風接收的混合語音信號隨時間的變化趨勢也相似，也僅在振幅的數(shù)值上有微小差異，說明2個麥克風接收混合語音信號過程中可以有效地對噪聲進行抑制，更好的接收不同發(fā)聲者的語音信號。因此，圖4和圖5分別從盲源分離和噪聲抑制兩個方面驗證了所提出的語音信號識別方法的有效性。

5.2 算法評價

本文將給出ASR系統(tǒng)的結(jié)果和客觀評價。首先定義信噪比：

(24)

其中:S(k)是語音信號能量，N(k)是噪聲能量。在這個ASR實驗中，車輛和餐廳的噪聲來自NOIZEUS噪聲數(shù)據(jù)庫。

使用ASR系統(tǒng)進行語音識別測試，提出的盲盲源分離算法是在VAD算法之前實現(xiàn)。文獻[15]指出，與麥克風相比，語音源更少的系統(tǒng)可以獲得更好的分離效果。將SS方法、ZCE方法和基于熵的方法的性能與在車輛和餐館噪聲環(huán)境中提出的VAD噪聲抑制方法進行了比較。對于信噪比SNR為0，5和10 dB的情況，在表1中給出了車輛噪聲與餐廳噪聲內(nèi)的語音識別精度實驗結(jié)果，其中，括號內(nèi)為餐廳噪聲環(huán)境下的識別率。

表1 車輛噪聲與餐廳噪聲內(nèi)的語音識別精度

與在VAD算法中實現(xiàn)精度最高的(基于熵的方法)相比，信噪比SNR=0 dB的情況下的相對改善達到2.5%(1.2%)，而在信噪比為5 dB的情況下，改善率為1.4%(0.33%)。整個ASR系統(tǒng)以逐幀的方式工作，滿足大多數(shù)嵌入式電子應用的實時操作。除了在實驗中使用的噪聲，使用NOIZEUS的街道噪音也可以獲得相似的結(jié)果。

6 結(jié)論

本文提出并實現(xiàn)了一種用于普適語音環(huán)境的完整語音恢復算法。它能有效地從多個發(fā)聲者的混合語音中恢復個體發(fā)聲者的聲音。所提出的算法的關鍵特征是不需要先驗信息的來源數(shù)量和干凈語音方差的估計。用于抑制噪聲的閾值是從語音本身生成，從而導致適應變化環(huán)境的理想能力。此外，所提出的盲源分離和噪聲抑制方法不需要任何額外的計算過程，有效地減少了計算負擔。最后，所提出的系統(tǒng)可以容易地在普適語音環(huán)境中實現(xiàn)。