劉俊良,于鳳芹
江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院,江蘇無錫 214122
基于分離度變步長的自然梯度算法的語音分離
劉俊良,于鳳芹
江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院,江蘇無錫 214122
盲源分離是指從若干個(gè)觀測到的多個(gè)信號(hào)的混合信號(hào)中恢復(fù)出無法直接觀測到的原始信號(hào)的方法[1]。語音信號(hào)分離問題是盲源分離的一個(gè)重要領(lǐng)域,國內(nèi)外許多學(xué)者都對(duì)其作了很多研究[2-4],要解決這一問題最常用的方法就是基于獨(dú)立成分分析(Independent Component Analysis,ICA)的方法[1],以源信號(hào)間的統(tǒng)計(jì)獨(dú)立性為判據(jù)設(shè)定目標(biāo)函數(shù),然后通過各種算法使其最小化,最終求出分離矩陣,得到源信號(hào)。自然梯度算法是一種最小均方誤差算法,通過尋找目標(biāo)函數(shù)最小化的最快下降方向?qū)崿F(xiàn)對(duì)混合信號(hào)的快速分離,對(duì)數(shù)據(jù)進(jìn)行在線迭代處理,具有很好的實(shí)時(shí)性[5]。在這種算法中,步長與穩(wěn)態(tài)誤差成正比,而步長又與收斂時(shí)間成反比,使得收斂速率和穩(wěn)態(tài)誤差不能同時(shí)滿足。要解決這一問題,比較好的做法就是采用自適應(yīng)的步長。文獻(xiàn)[6]根據(jù)梯度實(shí)時(shí)調(diào)整步長,并用一個(gè)符號(hào)函數(shù)減少算法的計(jì)算量,收斂速率有所提高,穩(wěn)態(tài)誤差基本不變。文獻(xiàn)[7]通過建立步長因子與四階統(tǒng)計(jì)量峭度之間的非線性關(guān)系,對(duì)固定步長算法作了改進(jìn),提高了算法的收斂速度,穩(wěn)態(tài)誤差略微減少。本文采用一種變步長的算法,應(yīng)用于兩個(gè)混合語音信號(hào)的分離之中,根據(jù)實(shí)際的分離度動(dòng)態(tài)調(diào)整步長,設(shè)置兩個(gè)參數(shù)作為分離度的系數(shù)分別控制收斂速率和穩(wěn)態(tài)誤差,并結(jié)合串音誤差確定這兩個(gè)參數(shù)的最佳取值。仿真實(shí)驗(yàn)結(jié)果表明新的算法相較固定步長算法,收斂速率提高了將近1倍,同時(shí)穩(wěn)態(tài)誤差縮減小3倍,獲得了較好的語音分離效果。
2.1 盲源分離模型
假設(shè)未知源信號(hào)S(t)=(s1(t)s2(t)…sn(t))Τ是零均值且相互獨(dú)立的量,X(t)=(x1(t)x2(t)…xn(t))Τ是觀測到的量,它是由S(t)經(jīng)線性瞬時(shí)混合得到,混合公式如下:
其中A∈Rn×m是一個(gè)未知的滿秩混合矩陣。
盲分離就是在沒有任何先驗(yàn)知識(shí)和混合矩陣A未知的情況下僅由觀測信號(hào)X(t)恢復(fù)源信號(hào)S(t)的過程。
解混的線性變換模型如下式:
其中Y(t)=(y1(t)y2(t)…yn(t))Τ是對(duì)源信號(hào)S(t)的估計(jì),W∈Rn×m是要求解的分離矩陣。盲分離算法就是要尋找分離矩陣W。
2.2 自然梯度算法原理
在盲源分離中,輸出信號(hào)Y(t)的相互獨(dú)立性反映了分離的質(zhì)量,常以Kullback-Leibler散度作為獨(dú)立性的測度,并使其最小化。記隨機(jī)變量Y=WX的概率密度函數(shù)為py(Y,W),建立一個(gè)所有分量均是統(tǒng)計(jì)獨(dú)立的q(Y)作為參考。當(dāng)且僅當(dāng)py(Y,W)與q(Y)具有相同的分布時(shí),KL散度為零,而且不隨變量yi的非線性變換而變。獨(dú)立性的自然測度以公式表示為:
在傳統(tǒng)自然梯度算法中,步長因子μ(k)通常采用固定值,這樣有可能導(dǎo)致收斂速度慢,算法的跟蹤性差,最終影響整個(gè)分離過程的結(jié)果。這是由于采用固定的步長,自然梯度算法存在收斂速率和穩(wěn)態(tài)誤差之間的矛盾。步長取得較大,則收斂速率較快,穩(wěn)定誤差較大;步長取得較小,則穩(wěn)態(tài)誤差較小,但是收斂速率較慢。因此要解決這個(gè)問題,必須采用自適應(yīng)的步長。
本文采用一種自適應(yīng)變步長的分離算法,它的基本原理是建立自然梯度法與步長因子μ(k)之間的非線性聯(lián)系,使步長因子隨分離效果而變化,不用太多考慮初始步長的選擇問題,可以達(dá)到比較好的分離效果。
首先定義一個(gè)變量D(k)表示當(dāng)前的分離效果,其值如下式:
為了增強(qiáng)分離的效果,可使步長因子μ(k)根據(jù)實(shí)際分離效果,即D(k)的當(dāng)前值在較小范圍內(nèi)自動(dòng)調(diào)整,參數(shù)α(k)按照以下方式進(jìn)行取值:
式中0〈γ,β〈1,D(0)=0。即參數(shù)γ控制收斂速率,β控制穩(wěn)態(tài)誤差。
最終新的自適應(yīng)步長自然梯度算法公式為:
本文的算法具體實(shí)現(xiàn)步驟為:
第一步,對(duì)輸入的混疊語音信號(hào)進(jìn)行零均值化處理。
第二步,將第一步得到的語音信號(hào)進(jìn)行白化處理,獲得白化的數(shù)據(jù)矩陣Z。
第三步,設(shè)置初始分離矩陣W(0),選擇初始步長μ(0)。
第四步,通過計(jì)算得到分離的語音信號(hào)Y=WZ。
第五步,計(jì)算f(Y(k))YΤ(k)。
第六步,計(jì)算D(k),并求出步長因子μ(k+1)。
第七步,更新分離矩陣W(k+1)。
第八步,驗(yàn)證是否收斂,如果沒有則返回步驟四。
本實(shí)驗(yàn)針對(duì)的是兩個(gè)語音信號(hào)的線性瞬時(shí)混合,為一段男聲和一段女聲,采樣頻率為16 kHZ,選取25 000個(gè)采樣點(diǎn),設(shè)置初始分離矩陣W(0)=0.1*I,采用激活函數(shù)f(y)= tanh(y),選取初始步長μ(0)=0.05,迭代次數(shù)設(shè)定為100次,初次迭代梯度算法控制因子D(0)=0,混合矩陣A是由matlab軟件隨機(jī)生成的2行2列的矩陣,在matlab平臺(tái)進(jìn)行仿真實(shí)驗(yàn)。
為了定性地評(píng)價(jià)算法的性能采用串音誤差和相似系數(shù)矩陣來作為評(píng)價(jià)標(biāo)準(zhǔn)。串音誤差的數(shù)學(xué)表達(dá)式為:
式中Ci,j代表矩陣C中第i行j列的元素,矩陣C=WA為混合分離矩陣,E就是串音誤差,它的值越小,表示分離的效果越好。相似系數(shù)矩陣是用來表示所得到的分離信號(hào)與源信號(hào)之間相似程度的一個(gè)量,當(dāng)相似系數(shù)矩陣每行每列都有且僅有一個(gè)元素為接近1,其他元素都接近0時(shí),表示分離的效果較好。
4.1 β和γ的取值
為了得到最佳的分離效果,需要通過仿真實(shí)驗(yàn)確定兩個(gè)控制參數(shù)β和γ的值。本文采用逐個(gè)確定的方法,先固定一個(gè)參數(shù),然后優(yōu)化另一個(gè)參數(shù),本文先取β的值,β的大小影響穩(wěn)態(tài)誤差,經(jīng)過仿真實(shí)驗(yàn),綜合決定:
(1)固定β的值為0.1,調(diào)整γ的值,如圖1所示,可以看出隨著γ值的減小,串音誤差達(dá)到穩(wěn)定時(shí)所需要的迭代次數(shù)明顯增加,所以本文選擇γ的取值為0.1。
圖1 固定β串音誤差曲線圖
(2)固定γ的值為0.1,調(diào)整β的值,如圖2所示,可以看到隨著β的減小,串音誤差達(dá)到穩(wěn)定時(shí)所需的迭代次數(shù)略微增加,但是穩(wěn)態(tài)誤差明顯減小,綜合考慮,本文選擇β的取值為0.1。
圖2 固定γ串音誤差曲線圖
4.2 與固定步長自然梯度算法的對(duì)比
通過表1看到,兩個(gè)算法的相似系數(shù)矩陣表明自適應(yīng)步長算法分析效果更好,自適應(yīng)步長算法的穩(wěn)態(tài)誤差為固定步長算法的1/3,穩(wěn)態(tài)誤差大大減小。
表1 算法性能指標(biāo)對(duì)比
圖3 原始語音信號(hào)
圖4 混合語音信號(hào)
圖5 固定步長算法分離的語音信號(hào)
圖6 自適應(yīng)步長算法分離的語音信號(hào)
從圖3到圖6可以直觀看出,相較固定步長自然梯度算法,自適應(yīng)步長算法分離出的語音信號(hào)與源語音信號(hào)更為相近,表明分離的效果更好。而從圖7可以看到,相較固定步長算法迭代50次才收斂,自適應(yīng)步長算法在迭代30次時(shí)就已收斂,收斂速率提高了將近一倍,同時(shí)穩(wěn)態(tài)誤差也明顯低于固定步長算法。
圖7 固定步長算法和自適應(yīng)步長算法的串音誤差曲線圖
本文采用一種適用于語音信號(hào)分離的自適應(yīng)步長自然梯度算法,通過分離度自動(dòng)調(diào)整步長,不斷優(yōu)化分離矩陣,通過實(shí)驗(yàn)驗(yàn)證了該算法分離語音信號(hào)的有效性。仿真實(shí)驗(yàn)結(jié)果表明新算法能夠在大幅度降低穩(wěn)態(tài)誤差的情況下同時(shí)提高收斂速率,較好地解決了收斂速率和穩(wěn)態(tài)誤差相矛盾的問題,獲得了較好的語音分離效果。
[1]史習(xí)智.盲信號(hào)處理——理論與實(shí)踐[M].上海:上海交通大學(xué)出版社,2008:45-54.
[2]梁淑芬,江太輝.一種自適應(yīng)算法的語音信號(hào)盲分離[J].信號(hào)處理,2010,26(7):1094-1098.
[3]Bulek S,Erdol N.Blind speech separation using fractional order moments[C]//Statistical Signal Processing,2009:509-512.
[4]Benabderrahmane Y,O’Shaughnessy D,Selouani S A.Blind speech separation using OPCA method[C]//Industrial Electronics&Applications,2009:743-747.
[5]Amari S.Natural gradient works efficiently in learning[J]. Neural Computation,1998,10(2):251-276.
[6]Yuan L X,Wang W W,Chambers J A.Variable step-size sign natural gradient algorithm for sequential blind source separation[J].IEEE Signal Processing Letters,2005,12(8):589-592.
[7]王靈偉,舒勤,陳龍飛.峭度自然梯度盲分離改進(jìn)算法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(11):132-134.
LIU Junliang,YU Fengqin
School of Internet of Τhings Engineering,Jiangnan University,Wuxi,Jiangsu 214122,China
Τo solve the contradiction that fixed step size natural gradient algorithm brings between convergence rate and steadystate error,a natural gradient algorithm based on adaptive step size is adopted that step size changes automatically depending on separation degree,and two parameters are used as the coefficient of separation degree to control separate stability and convergence. Simulation results demonstrate that the algorithm has good separation property compared with fixed step size algorithm.Convergence rate doubles,and steady-state error narrows three times.
blind source separation;speech separation;adaptive step size;separation degree;convergence rate;steaty-state error
為解決固定步長自然梯度算法帶來的收斂速率與穩(wěn)態(tài)誤差之間矛盾的問題,采用一種自適應(yīng)步長的自然梯度算法,根據(jù)實(shí)際分離度自動(dòng)調(diào)整步長,通過設(shè)置兩個(gè)參數(shù)作為分離度系數(shù)控制收斂速率和穩(wěn)態(tài)誤差。仿真實(shí)驗(yàn)結(jié)果表明相較固定步長算法,該算法具有較好的分離性能,收斂速率提高了1倍,同時(shí)穩(wěn)態(tài)誤差縮小了3倍。
盲源分離;語音分離;自適應(yīng)步長;分離度;收斂速率;穩(wěn)態(tài)誤差
A
ΤN912
10.3778/j.issn.1002-8331.1203-0052
LIU Junliang,YU Fengqin.Speech separation based on variable step size natural gradient algorithm depending on separation degree.Computer Engineering and Applications,2013,49(21):216-219.
國家自然科學(xué)基金(No.61075008)。
劉俊良(1989—),男,碩士,主要研究領(lǐng)域?yàn)檎Z音信號(hào)處理;于鳳芹(1962—),女,博士,教授,主要研究領(lǐng)域?yàn)檎Z音信號(hào)處理。E-mail:yufengqin@china.com
2012-03-02
2012-05-09
1002-8331(2013)21-0216-04
CNKI出版日期:2012-07-16http://www.cnki.net/kcms/detail/11.2127.ΤP.20120716.1501.049.html
◎工程與應(yīng)用◎