吳君欽,王迎福
(江西理工大學(xué)信息工程學(xué)院,江西 贛州 341000)
雞尾酒會問題[1-2]是經(jīng)典的盲源分離問題,涉及在現(xiàn)實環(huán)境中分離并發(fā)語音信號的混合。改進的分離算法將導(dǎo)致更大程度的干擾抑制和更少的偽影,這將提升包括助聽器和人工耳蝸在內(nèi)的助聽設(shè)備的質(zhì)量和魯棒性,以及近年來日益普及的語音識別系統(tǒng)的性能。盲語音分離問題的主要困難在于混音系統(tǒng)的欠定性、混響環(huán)境、噪聲的存在以及語音的非平穩(wěn)性。但是,隨著包括非負矩陣分解[3-7](Non-Negative Matrix Factorization,NMF)等機器學(xué)習(xí)算法的出現(xiàn),不僅提高了算法的計算能力,而且在該問題上也取得了重大進展。
NMF是一種無監(jiān)督的字典學(xué)習(xí)算法,它是引導(dǎo)盲源信號的各種聲源分離技術(shù)的核心[8]。NMF非常適合于混合聲信號的成分性質(zhì),可產(chǎn)生基于混合聲譜圖成分的無損表示[9-10]。但是,當(dāng)將其應(yīng)用于復(fù)雜混合語音信號[11]時,信號源會跨多個詞典原子進行編碼,隨后需要對原子進行分組才能實現(xiàn)分離。盡管許多解決此問題的方法都涉及某種形式的監(jiān)督和無監(jiān)督方法,包括本文介紹的方法。然而利用先驗的知識或信息來解決有監(jiān)督的分割問題。對于簡單的聲音,可以手動對字典原子進行分組,但是隨著聲源復(fù)雜性或聲源數(shù)量的增加,此方法很快變得非常麻煩。一種常見的監(jiān)督方法是使用隔離的源記錄來適應(yīng)特定于源的詞典,然后將這些詞典連接起來以對混合信號進行編碼。由于每個源均由其相應(yīng)的字典進行編碼,因此編碼過程實現(xiàn)了分離。另一種常見的方法涉及使用混合信號中存在的源的種類的先驗知識來約束NMF詞典的各個部分,以使它們對應(yīng)于“感興趣”的源。無監(jiān)督解方法通常使用空間分布的麥克風(fēng),將NMF與空間信息結(jié)合起來以實現(xiàn)分離[12-15]。一類基于模型的方法是學(xué)習(xí)一組特定源信號的詞典,同時并行調(diào)整其對應(yīng)的混合模型?;旌夏P涂梢圆扇】臻g協(xié)方差矩陣的形式,而字典可以通過多層結(jié)構(gòu)變得更復(fù)雜。但是,空間協(xié)方差矩陣方法對初始化值敏感,并且在實踐中需要使用受約束的字典才能獲得良好的結(jié)果。另一類方法是將NMF與傳統(tǒng)的波束形成算法結(jié)合起來,但是這些方法是針對大型麥克風(fēng)陣列開發(fā)的,與本文考慮的雙通道[16-17]情況有很大差異。
目前對于非負矩陣的研究主要是對于特定源信號的字典以及受約束的字典,對噪聲的字典以及其他源信號的字典研究較少。本文利用非負矩陣和廣義互相關(guān)方法相結(jié)合對混合信號的噪聲字典和源信號字典進行深入研究。
非負矩陣分解算法的輸入由混合信號的幅度時頻表示組成,從數(shù)學(xué)的角度可表示為非負矩陣Vft,其中f和t分別指頻率和時間。非負矩陣分解算法是將該輸入混合信號的頻譜圖分解為2個非負矩陣:字典矩陣 Wfd(見圖 1(a))和系數(shù)矩陣 Hdt,以使它們的乘積Λ=WH近似于V。W的d列稱為字典原子(見圖1(b)),它是頻率的非負函數(shù),可以在每個時間點與相應(yīng)的系數(shù)線性組合,從而重構(gòu)輸入頻譜圖的相應(yīng)列。
圖1 NMF在混合語音信號中學(xué)習(xí)的詞典
非負矩陣分解方法優(yōu)化了包含重構(gòu)誤差項和可選系數(shù)稀疏性誘導(dǎo)項的代價函數(shù)。其使用了各種重構(gòu)誤差的度量,其中一些度量泛化為β散度 Dβ(V|Λ),包括歐幾里得距離和廣義Kullback-Leibler散度,l1范數(shù)通常用于系數(shù)稀疏性。然后定義乘法更新規(guī)則,以便通過隨機初始化W和H并迭代更新它們,該算法收斂到代價函數(shù)的局部最小值。稀疏性為l0的 Dβ(V|Λ)的更新規(guī)則定義為:
其中,⊙是Hadamard(按元素計算)乘積,矩陣指數(shù)是矢量形式的,并且α是權(quán)重系數(shù)稀疏性,對應(yīng)重構(gòu)誤差。為了消除W和H之間的縮放不確定性,通常在每次更新后將字典原子標準化,并相應(yīng)地調(diào)整其系數(shù)。
在研究立體聲音頻信號的情況下,左輸入頻譜圖和右輸入頻譜圖可以在訓(xùn)練之前及時合并,即Vft= [Vlft| Vrft],其中得到的系數(shù)相應(yīng)地為Hdt=[Hldt|Hrdt],并且字典保持變。
成對的空間分布傳感器之間的信號到達時間差[18](Time Difference of Arrival,TDOA)用于波束成形[19]和定位的各種傳感器陣列應(yīng)用中。GCC(Generalized Cross Correlation,GCC)算法是估算任意一組頻率的TDOA的經(jīng)典方法。GCC表示角度頻譜圖,見圖2(a)。時間延遲τ和時間t的函數(shù),在數(shù)學(xué)上定義為:
其中,Vlft和Vrft是左右復(fù)譜圖;*是元素復(fù)共軛;ψft是時變頻率加權(quán)函數(shù)。
在存在干擾聲音和混響的情況下,最穩(wěn)健的定位算法是GCC相變(GCC-PHAT),其頻率加權(quán)函數(shù)是左右幅值頻譜圖的逆積:
將角度頻譜圖隨時間合并,生成總的角度頻譜,然后將最高峰的位置與源TDOA估計相對應(yīng),見圖2(b)。源的數(shù)量可以事先確定,也可以例如通過對k=2的局部最大幅度進行k均值聚類來估計。對于較小的麥克風(fēng)間距,必須應(yīng)用非線性來補償所得GCC的寬瓣:
其中,γ=2在實踐中表現(xiàn)良好。
在本節(jié)中,提出了一種GCC-NMF分離算法。隨后根據(jù)原子的空間定位將原子分組為源,然后分別獨立地重建每組原子。
首先從標準化NMF字典原子定義一組GCC頻率加權(quán)函數(shù)ψNMFdft:
從而構(gòu)造頻譜函數(shù)使得對于給定的原子d,頻率可以根據(jù)它們的相對重要性來加權(quán)。 然后,GCC-NMF是特定于原子的角度頻譜圖的結(jié)果集:
圖2 使用GCC-PHAT進行混合信號的源定位
GCC-NMF角度頻譜圖用于將每個字典原子每次都與單個s相關(guān)聯(lián)。如1.2節(jié)所述,首先使用GCC-PHAT估算源到達時間差Ts。然后對于任意時間t,字典原子都能產(chǎn)生最大值GNMFdτst的源。從而定義了一組特定源的二進制系數(shù)掩碼:
將它們與元素的混合系數(shù)相乘以便為每個源生成掩蔽系數(shù)。
通過使用特定源的掩蔽系數(shù)進行反NMF和時頻函數(shù)[20-24]來實現(xiàn)源重構(gòu):
圖3給出了分離系統(tǒng)的框圖,然后在表1中描述了系統(tǒng)變量。分離系統(tǒng)始于由短時傅里葉變換(Short-time Fourier Transform,STFT) 和 NMF組成的編碼解碼塊。然后,系數(shù)掩蔽塊中斷編碼-解碼過程,從而產(chǎn)生編碼-分離-解碼架構(gòu)。粗箭頭強調(diào)編碼-解碼過程。
實驗是使用信號分離評估運動(Signal Separation Evaluation Campaign,SiSEC dev1) 現(xiàn)場語音記錄數(shù)據(jù)集進行的,該數(shù)據(jù)集組成是“通過會議室中的揚聲器播放的靜態(tài)源,一次記錄一個”,每個錄音長度為10 s,由3個女性和4個男性通過16個揚聲器混合錄制而成,其中5個揚聲器的麥克風(fēng)間距為1 cm和1 m,混響時間為180 ms和250 ms。采用采樣大小為1024個樣本的Hann窗(64 ms)以及跳數(shù)大小為 16 個采樣樣本(1 ms),通過STFT從16 kHz混合信號生成復(fù)頻譜圖。默認NMF參數(shù)設(shè)置為1024字典原子,100次迭代,稀疏度 α=0.1,價函數(shù) β=1。 GCC 非線性適用于 γ=3、間距為5 cm的麥克風(fēng)。
圖3 GCC-NMF源分離系統(tǒng)
表1 變量說明
在圖4、圖5、圖6中,分別探究了非負矩陣分解方法中字典大小、迭代次數(shù)和稀疏系數(shù)α 3個因素對分離性能的影響。對于信噪比和感知分數(shù),增加字典大小會導(dǎo)致目標的 OPS、TPS、APS、SDR、ISR、SAR值提高,不過當(dāng)字典大小超過100時,增長達到了飽和狀態(tài)。而隨著字典大小的增加,目標qGlobal、qTarge、qArtif的 PEMO-Q 值緩慢增大,在字典大小達到100后,PEMO-Q值幾乎趨于穩(wěn)定;qInterf的PEMO-Q值幾乎沒什么變化。盡管SNR和PEMO-Q的測量值表明干擾抑制與字典大小無關(guān),但是隨著字典大小的增加,Ips感知分數(shù)明顯下降。因此,字典大小可控制干擾抑制與總體,目標和偽像得分之間的折中。對于目標的感知分數(shù)、信噪比、PEMO-Q值,迭代次數(shù)具有與字典大小類似的影響,盡管增加與降低的幅度沒那么明顯,而增加系數(shù)稀疏性 (散度)α則表現(xiàn)出了與前兩種因素相反的效果:目標,偽像和總體得分隨稀疏度的增加而降低,而干擾抑制則增加。為實現(xiàn)分離效果的最佳化,默認設(shè)置參數(shù)字典大小為100,迭代次數(shù)為1024,稀疏度α為 0.1。
圖4 不同字典大小下,信號的感知值、信噪比、PEMO-Q的變化趨勢
圖5 不同散度下,信號的感知值、信噪比、PEMO-Q的變化趨勢
圖6 不同迭代次數(shù)下,信號的感知值、信噪比、PEMO-Q的變化趨勢
在表2、表3、表4中,分別使用聲源分離的感知評價方法(Perceptual Evaluation for Audio Source Separation,PEASS)工具包和盲源分離(Blind Speech Separation,BSS) 評測工具包進行了 PEASS、BSS、PEMO-Q三項性能測評,并將GCC-NMF得到的實驗數(shù)據(jù)與其他基于NMF的語音分離算法的實驗數(shù)據(jù)進行了比較。
表2 PEASS評測值單位:dB
表3 BSS評測值單位:dB
表4 PEMO-Q評測值 單位:dB
實驗數(shù)據(jù)都是以平均分離分數(shù)±標準偏差呈現(xiàn),從而確保實驗結(jié)果的相對穩(wěn)定,數(shù)據(jù)集取自SiSEC dev1實時語音記錄數(shù)據(jù)集。FASST[25]是一種靈活的、開源的、基于模型的方法,它將NMF與空間協(xié)方差混合模型結(jié)合在一起。在單純無監(jiān)督的環(huán)境中,它對初始化值過于敏感,并且缺乏魯棒性。因此,對于FASST-init[25],使用oracle混合初始化過程,可以顯著提高性能,但是需要事先混合模型信息。從表中的數(shù)據(jù)可以看到,盡管根據(jù)BSS Eval指標,這種半監(jiān)督方法的性能優(yōu)于GCC-NMF,但GCC-NMF可以顯著改善總體,基于目標和基于干擾的PEASS分數(shù),但代價是增加了偽像值。此外,還對比了文獻[26-28]中提出的Ozerov、Adiloglu兩種半監(jiān)督和帶約束條件的字典算法的結(jié)果,盡管GCC-NMF是一種非監(jiān)督的方法,不過在PEASS、BSS、PEMO-Q三項性能測評上所得到的結(jié)果還是相當(dāng)理想的。
OPS、TPS、IPS、APS 分別表示: 總體感知分數(shù)(Overall Perceptual Score,OPS)、 與目標相關(guān)的感知分數(shù)(Target-related Perceptual Score,TPS)、與干擾相關(guān)的感知分數(shù)(Interference-related Perceptual Score,IPS),以及與偽像相關(guān)的感知分數(shù)(Artifactsrelated Perceptual Score,APS);SDR、ISR、SIR、SAR分別表示:信號失真率(Source to Distortion Ratio,SDR)、信號圖像空間失真率 (Source Image-to-Spatial Distortion Ratio,ISR)、信號干擾率(Source to Interferences Ratio,SIR),以及信號偽像率(Sources to Artifacts Ratio,SAR);qGlobal、qTarget、qInterf、qArtif分別表示信號PEMO-Q的全局值、目標值、干擾值及偽像值。
本文提出了一種將空間信息與非負矩陣分解相結(jié)合的無監(jiān)督語音分離方法。通過利用廣義互相關(guān)的源定位方法對隨時間變化的單個字典原子進行定位,從而根據(jù)其空間源對其進行分組,最后通過控制變量法研究了NMF參數(shù)對于分離性能的影響,對比得出了3個參數(shù)的最優(yōu)取值,從而實現(xiàn)了分離性能的最佳化。所提出的基于廣義互相關(guān)的非負矩陣分解的方法優(yōu)于無監(jiān)督的空間協(xié)方差模型,并且相比需要先驗知識或信息的半監(jiān)督和受限的非負矩陣分解方法,也頗具優(yōu)勢。盡管簡單的結(jié)合廣義互相關(guān)和非負矩陣分解表現(xiàn)出較好的性能,同時需要研究其他更復(fù)雜的非負矩陣分解模型以及一些特征學(xué)習(xí)方法。