孫干超,王吉林
(鹽城工學(xué)院信息工程學(xué)院,江蘇 鹽城 224051)
?
基于ARM的說(shuō)話(huà)人識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)*
孫干超*,王吉林
(鹽城工學(xué)院信息工程學(xué)院,江蘇 鹽城 224051)
提出了一種基于壓縮感知(CS)的說(shuō)話(huà)人識(shí)別算法以及在ARM系統(tǒng)中的實(shí)現(xiàn),首先,介紹壓縮感知理論框架,提出說(shuō)話(huà)人識(shí)別可以與壓縮感知理論相結(jié)合的依據(jù);其次,提出基于壓縮感知的說(shuō)話(huà)人識(shí)別算法的基本方法,即建立說(shuō)話(huà)人語(yǔ)音特征數(shù)據(jù)庫(kù)和基追蹤匹配得到最大均值系數(shù),其中,語(yǔ)音特征向量由GMM均值超向量核算法得到,大量實(shí)驗(yàn)數(shù)據(jù)表明,該方法一定程度上提高了識(shí)別率,并且在說(shuō)話(huà)人集合較大的情況下識(shí)別效果較好。
壓縮感知;說(shuō)話(huà)人識(shí)別;基追蹤;高斯混合模型
語(yǔ)音是人的自然屬性之一,由于各個(gè)說(shuō)話(huà)人發(fā)音器官的生理差異以及后天形成的發(fā)音習(xí)慣等行為差異的影響,每個(gè)人的語(yǔ)音中蘊(yùn)含著與眾不同的個(gè)人特征[1]。說(shuō)話(huà)人識(shí)別就是著眼于提取包含在語(yǔ)音信號(hào)中的個(gè)人特征,以達(dá)到識(shí)別說(shuō)話(huà)人的目的。說(shuō)話(huà)人識(shí)別按其被輸入的測(cè)試語(yǔ)音來(lái)分可以分為與文本有關(guān)和與文本無(wú)關(guān)的說(shuō)話(huà)人識(shí)別。而與文本無(wú)關(guān)的說(shuō)話(huà)人識(shí)別在今天無(wú)疑有著更廣泛的應(yīng)用。
對(duì)于與文本無(wú)關(guān)的說(shuō)話(huà)人識(shí)別,由于說(shuō)話(huà)人的個(gè)性特征具有長(zhǎng)時(shí)變動(dòng)性,而且其發(fā)音常常與環(huán)境、說(shuō)話(huà)人情緒、說(shuō)話(huà)人健康有密切關(guān)系[1],實(shí)際過(guò)程中還可能引入背景噪聲等干擾,這些都是與文本無(wú)關(guān)說(shuō)話(huà)人識(shí)別的識(shí)別率得不到進(jìn)一步提高的主要因素。為了降低這些因素的影響,人們從事了大量的研究,這些研究可分為3個(gè)方面:(1)語(yǔ)音降噪,這一方面是研究的熱點(diǎn),譜減法[2-3]是對(duì)靜態(tài)噪聲最常用的方法,由于通常說(shuō)話(huà)人是在非靜態(tài)噪聲環(huán)境下,譜減法帶來(lái)了嚴(yán)重的MUSIC噪聲[2-3],所以Tradj C[4]等人采用了自適應(yīng)噪聲抵消技術(shù)來(lái)降低噪聲的影響獲得不錯(cuò)的效果,Soon I Y[5]等人對(duì)帶噪語(yǔ)音采用2維傅氏變換,然后進(jìn)行Wiener濾波;(2)模型優(yōu)化,松井等人[6]把魯棒的距離尺度DIM(Distortion-Intersection Measure)應(yīng)用于說(shuō)話(huà)人識(shí)別,把GMM的各高斯分布的兩端用一定值(如3σ)平滑,結(jié)果能較好地吸收特征參數(shù)的變動(dòng)。Liu C S[7]等提出了基于最近冒名者的模型,Xiang B[8]等人基于結(jié)構(gòu)背景模型提出了一種結(jié)構(gòu)高斯混合模型;(3)對(duì)模型輸出的似然概率(得分)進(jìn)行處理,當(dāng)說(shuō)話(huà)人的個(gè)性特征不斷變化、語(yǔ)音與噪聲不能很好地分離或者降噪算法對(duì)語(yǔ)音有損傷、模型不能很好地匹配時(shí),需要對(duì)似然概率(得分)進(jìn)行補(bǔ)償[9],Reynolds[10]提出了采用說(shuō)話(huà)人背景模型的平均似然函數(shù)來(lái)計(jì)算得分;Matsui和Furui[11]提出了基于后驗(yàn)概率的模型。Markov和Nakagawa[12]將整個(gè)語(yǔ)句分成若干幀,計(jì)算每幀得分,從而獲得總得分,通過(guò)實(shí)驗(yàn)得出識(shí)別率有大的提高。Chen K[13]等人基于最小風(fēng)險(xiǎn)對(duì)得分進(jìn)行了判決獲得了滿(mǎn)意的結(jié)果。雖然以上沒(méi)有考慮目標(biāo)模型和非目標(biāo)模型的幀似然概率的特性,但同時(shí)也說(shuō)明對(duì)模型輸出的似然概率進(jìn)行變換,可以提高識(shí)別率。
針對(duì)傳統(tǒng)說(shuō)話(huà)人識(shí)別算法會(huì)隨著背景噪音的增大而性能降低的問(wèn)題,本文提出將壓縮感知理論應(yīng)用到說(shuō)話(huà)人識(shí)別領(lǐng)域。首先論證了語(yǔ)音信號(hào)在說(shuō)話(huà)人識(shí)別意義上的可壓縮性,為兩種理論的結(jié)合奠定基礎(chǔ),繼而提出一種基于壓縮感知的說(shuō)話(huà)人識(shí)別算法,并進(jìn)行了實(shí)驗(yàn)論證,結(jié)果表明,基于壓縮感知的說(shuō)話(huà)人識(shí)別算法能提高噪音環(huán)境下的說(shuō)話(huà)人識(shí)別率。
1.1 壓縮感知的基本原理
壓縮感知CS(Compressive Sensing)是一種新型的數(shù)據(jù)采集和編解碼理論[14-15],該理論包括兩個(gè)部分:將信號(hào)在觀(guān)測(cè)向量上投影得到觀(guān)測(cè)值,以及利用重構(gòu)算法由觀(guān)測(cè)值重構(gòu)信號(hào)。
壓縮感知理論要求信號(hào)必須是稀疏的,自然界中的大多數(shù)信號(hào)都是稀疏或變換稀疏的(可以壓縮的),即不同類(lèi)型的信號(hào)在不同的變換域下稀疏,比如語(yǔ)音信號(hào)在局部傅里葉變換域,圖像信號(hào)在離散余弦變換域和小波域,都符合稀疏條件。
設(shè)一個(gè)長(zhǎng)度為N的信號(hào)x,變換域?yàn)棣?[ψ1,ψ2,…,ψN],其中ψi(i=1,2,…,N)是長(zhǎng)度為N的列向量,則信號(hào)x可表示為:
(1)
其中θ是在變換域Ψ下的稀疏系數(shù)。
若x是K稀疏的,稀疏指x本身或者在某種變換域Ψ下有K個(gè)非零元素。用一個(gè)與稀疏基不相關(guān)的觀(guān)測(cè)矩陣Φ對(duì)信號(hào)進(jìn)行線(xiàn)性變換,得到觀(guān)測(cè)向量:
y=Φx
(2)
其中,Φ為M×N(M?N)維,通常選取高斯隨機(jī)矩陣。具體過(guò)程如圖1所示。
圖1 壓縮感知獲得觀(guān)測(cè)向量
重構(gòu)信號(hào)可以通過(guò)l0范數(shù)優(yōu)化問(wèn)題找到具有系數(shù)結(jié)構(gòu)的解:
min‖θ‖0s.t. y=Ξθ
(3)
其中,
Ξ=ΦΨ
(4)
由于式(4)是一個(gè)很難求解的NP-hard問(wèn)題,可以用l1約束取代l0約束:
min‖θ‖1s.t. y=Ξθ
(5)
從而,原信號(hào)得到恢復(fù)。
整個(gè)壓縮感知的過(guò)程如圖2所示。
圖2 壓縮感知的處理過(guò)程
本文的說(shuō)話(huà)人系統(tǒng)中,不需要最終重構(gòu)信號(hào),可以利用檢測(cè)算法直接從稀疏系數(shù)中計(jì)算權(quán)重進(jìn)行判斷,完成說(shuō)話(huà)人識(shí)別。
1.2 基于壓縮感知的說(shuō)話(huà)人識(shí)別
本文選取語(yǔ)音特征向量來(lái)構(gòu)建稀疏基,其中語(yǔ)音特征向量由GMM均值超向量核算法生成,從而長(zhǎng)度不等的語(yǔ)音片段被映射到一個(gè)空間,在這個(gè)空間內(nèi)特征向量維數(shù)固定。
假設(shè)ψi,j∈Rm表示第i個(gè)人的第j個(gè)語(yǔ)音特征向量,每個(gè)人有J個(gè)語(yǔ)音特征向量,那么,用Ψi表示屬于第i個(gè)人的表達(dá)矩陣:
Ψi=[ψi,1,ψi,2,…,ψi,3]
(6)
由線(xiàn)性表達(dá)可知[15],若測(cè)試語(yǔ)音特征向量y屬于第i個(gè)人,則
y=ai,1ψi,1+ai,2ψi,2+…+ai,Jψi,J
(7)
另一方面,所有人的語(yǔ)音特征向量組成的特征數(shù)據(jù)庫(kù)可表示為:
Ψ=[Ψ1,Ψ2,…,ΨI]
(8)
其中I為說(shuō)話(huà)人識(shí)別的類(lèi)別數(shù)。
那么第i類(lèi)測(cè)試y在特征數(shù)據(jù)庫(kù)下系數(shù)為:
θ=[0,0,…,0,ai,1,ai,2,…,ai,J,0,…,0]
(9)
可以看出,除了該類(lèi)對(duì)應(yīng)原子系數(shù)不為零,其他原子的系數(shù)全為零。因此,該系數(shù)向量是稀疏的,滿(mǎn)足壓縮感知的恢復(fù)條件。
系統(tǒng)的識(shí)別過(guò)程如下:
第1步:提取待識(shí)別的語(yǔ)音信號(hào)的GMM均值超向量作為特征向量;
第2步:將觀(guān)測(cè)向量代入式(5)求解一范數(shù)約束問(wèn)題得到稀疏系數(shù);
第3步:計(jì)算類(lèi)平均稀疏系數(shù),并且將測(cè)試說(shuō)話(huà)人判定為均值系數(shù)最大的類(lèi):
(10)
SK=MAX(S1,S2,…,SI)
(11)
其中SK為測(cè)試說(shuō)話(huà)人所在的類(lèi)。
2.1 硬件平臺(tái)設(shè)計(jì)
綜合考慮硬件效率及成本因素,我們所選用的硬件平臺(tái)是TI的Devkit8500開(kāi)發(fā)套件。選用德州儀器(TI)的DM3730處理器作為中央處理器。其中硬件板的結(jié)構(gòu)如圖3所示。
圖3 硬件平臺(tái)的構(gòu)造
通過(guò)對(duì)其輸入、輸出口IO(Input Output)的設(shè)置,使其通過(guò)集成音頻接口IIS(Integrate Interface of Sound)和集成電路間(Inter-Integrated Circuit)總線(xiàn)與音頻處理芯片進(jìn)行通信。另外,外擴(kuò)一片同步動(dòng)態(tài)隨機(jī)存儲(chǔ)器SDRAM(Synchronous Dynamic Random Access Memory)和一片F(xiàn)lash,分別作為程序運(yùn)行空間和音頻文件、HMM模型數(shù)據(jù)存儲(chǔ)空間。
LCD顯示屏通過(guò)TFT_LCD接口與主板相連,采用觸摸方式進(jìn)行操控。通過(guò)開(kāi)始按鈕啟動(dòng)程序,此時(shí)通過(guò)麥克風(fēng)讀取語(yǔ)音,即可進(jìn)行識(shí)別,并在屏幕上顯示識(shí)別結(jié)果,以進(jìn)行后續(xù)操作。IIS總線(xiàn)用于在ARM A8和音頻接口芯片之間傳輸音頻數(shù)據(jù),IIC總線(xiàn)作控制,數(shù)據(jù)傳輸使用直接存儲(chǔ)訪(fǎng)問(wèn)DMA(Direct Memory Access)方式。由于TI的DMA控制器沒(méi)有內(nèi)置存儲(chǔ)區(qū)域,因此在驅(qū)動(dòng)程序中要對(duì)音頻設(shè)備分配緩存區(qū)。緩存區(qū)的地址由DMA控制器的地址寄存器設(shè)置。
2.2 軟件平臺(tái)及實(shí)現(xiàn)算法設(shè)計(jì)
本平臺(tái)所選用的內(nèi)核是Linux-2.6內(nèi)核。因?yàn)榍度胧絃inux是低成本開(kāi)發(fā)系統(tǒng)??梢詰?yīng)用于多種硬件平臺(tái)??梢远ㄖ?可以根據(jù)庫(kù)戶(hù)的需要,實(shí)時(shí)地將某些模塊插入到內(nèi)核或者從內(nèi)核中移走,并能根據(jù)設(shè)備的個(gè)性量體裁衣。性能優(yōu)異。Linux系統(tǒng)內(nèi)核精簡(jiǎn)、高效和穩(wěn)定。能夠充分發(fā)揮硬件的功能,因此它比其他操作系統(tǒng)運(yùn)行效率要高。并且具有良好的網(wǎng)絡(luò)支持。
在算法結(jié)構(gòu)中,語(yǔ)音識(shí)別是核心模塊,需要完成的操作包括語(yǔ)音信號(hào)采集、語(yǔ)音端點(diǎn)檢測(cè)、碼本的匹配計(jì)算,以及結(jié)果的輸出。ARM板完成的算法結(jié)構(gòu)及其流程如圖4所示。
圖4 ARM板說(shuō)話(huà)人識(shí)別算法實(shí)現(xiàn)流程
為了檢驗(yàn)提出的方法的有效性,我們進(jìn)行了比較實(shí)驗(yàn)。比較的基線(xiàn)系統(tǒng)是M=16時(shí)的GMM識(shí)別模型系統(tǒng)。實(shí)驗(yàn)中采用NTT數(shù)據(jù)庫(kù)。NTT數(shù)據(jù)庫(kù)包括35個(gè)說(shuō)話(huà)人(22男,13女)的記錄。它是分5個(gè)時(shí)期持續(xù)10個(gè)月收集得到的。訓(xùn)練時(shí)使用10句語(yǔ)料,5句對(duì)所有說(shuō)話(huà)人都相同,5句則各不相同,但都來(lái)自同一時(shí)期。測(cè)試時(shí)采用來(lái)自同一時(shí)期的10句語(yǔ)料。每句話(huà)的平均持續(xù)時(shí)間為4 s。語(yǔ)音信號(hào)經(jīng)12 kHz采樣,1 Z-1~0.98 Z-1的預(yù)加重,窗長(zhǎng)21.33 ms,窗移8 ms的漢明窗后,進(jìn)行14階LPC分析,然后從14階LPC系數(shù)中求出12階的倒譜系數(shù)和12階Δ倒譜系數(shù)作為說(shuō)話(huà)人識(shí)別的特征參數(shù)。
實(shí)驗(yàn)中使用的噪聲數(shù)據(jù)是日本電子協(xié)會(huì)標(biāo)準(zhǔn)噪聲數(shù)據(jù)庫(kù)中的行駛中的汽車(chē)(2 000 cc組,一般道路)內(nèi)的噪聲(平穩(wěn)噪聲)和展覽會(huì)中的展示隔間內(nèi)的噪聲(非平穩(wěn)噪聲)。這些噪聲被按一定的信噪比(SNR)疊加進(jìn)無(wú)噪語(yǔ)音中組成帶噪語(yǔ)音。比較識(shí)別結(jié)果如表1所示。
表1 10名說(shuō)話(huà)人的平均識(shí)別率(%)
通過(guò)表1我們發(fā)現(xiàn)基于稀疏理論的壓縮感知方法確實(shí)能夠提高說(shuō)話(huà)人識(shí)別系統(tǒng)的識(shí)別率。尤其在噪聲環(huán)境下,與基線(xiàn)系統(tǒng)相比識(shí)別率有較大的提高。
針對(duì)傳統(tǒng)說(shuō)話(huà)人識(shí)別算法會(huì)隨著說(shuō)話(huà)人背景噪音的增大而性能降低的問(wèn)題,本文提出將壓縮感知理論應(yīng)用到說(shuō)話(huà)人識(shí)別領(lǐng)域。論證了語(yǔ)音信號(hào)在說(shuō)話(huà)人識(shí)別意義上的可壓縮性,提出一種基于壓縮感知的說(shuō)話(huà)人識(shí)別算法,并進(jìn)行了實(shí)驗(yàn)論證,結(jié)果表明,基于壓縮感知的說(shuō)話(huà)人識(shí)別系統(tǒng)比基于GMM的基線(xiàn)系統(tǒng)有較好的識(shí)別率。
[1]趙力. 語(yǔ)音信號(hào)處理[M]. 北京:機(jī)械工業(yè)出版社,2003:236-253.
[2]Pandey P C,Bhandorkar S M. Enhancement of Alaryngeal Speech Using Spectral Subtraction[C]//14th International Conference on DSP 2002. 2002:591-594.
[3]Zhong Lin,Rafik Goubran. Musical Noise Reduction in Speech Using Two-Dimensional Spectrogram Enhancement[C]//Proceedings of HAVE 2003. 2003:61-64.
[4]Tadj C,Gabrea M. Towards Robustness in Speaker Verification:Enhancement and Adaptation[C]//MWSCAS-2002. 2002:320-323.
[5]Soon I Y,Koh S N. Speech Enhancement Using 2-D Fourier Transform[J]. IEEE Transactions on Speech and Audio Processing,2003,11(6):717-724.
[6]松井知子,古井貞熙. VQ、離散/連續(xù)HMMによるテキスト獨(dú)立話(huà)者認(rèn)識(shí)法の比較[J]. 電子情報(bào)通信學(xué)會(huì)論文志,1994;J77-A(4):601-607.
[7]Liu C S,Wang H C. Speaker Verification Using Normalization Log-Likelihood Score[J]. IEEE Trans Speech and Audio Precessing,1980,4(3):56-60.
[8]Bing Xiang,Toby Berger,Efficient Text-Independent Speaker Verification with Structural Gaussian Mixture Models and Neural Network[J]. IEEE Trans. Speech and Audio Precessing,2003,11(5):447-456.
[9]Dat tran,Michael Wagner. A Proposed Likelihood Trasformation for Speaker Verification[C]//ICASSP’00. 2000:1069-1072.
[10]Douglas A Reynolds. Speaker Identification and Verification Using Gaussian Mixture Speaker Models[J]. Speech Communication,1995:91-108.
[11]Matsui T,Furui S. Concatenated Phoneme Models for Text Variable Speaker Recognition[C]//Proceeding of ICASSP’93. 1993:391-394.
[12]Markov K,Nakagawa S. Text-Independent Speaker Recognition System Using Frame Level Likelihood Processing[J]. Technical Report of IEICE,1996,96(17):37-44.
[13]Ke Chen. Towards Better Making a Decision in Speaker Verification[J]. Pattern Recognition,2003:329-346.
[14]Baraniuk R. Compressive Sensing[J]. IEEE Signal Processing Magazine,2007,24(3):1092-1099.
[15]Donoho D. Compressed Sensing Theory[J]. 2006,IEEE Trans Inform,52(4):1289-1306.
孫干超(1961-),男,漢族,江蘇鹽城人,高級(jí)工程師,研究方向?yàn)殡娮蛹夹g(shù)與信息處理,ycsgc@163.com。
SpeakerRecognitionBasedonARM*
SUNGanchao*,WANGJilin
(Yancheng Institute of Technology,College of Information Engineering,Yancheng Jiangsu 224051,China)
To improve the rates of speaker recognition,a method based on the compressed sensing(CS)is proposed. First,the frame of compressed sensing theory is introduced to analyzing the premise of combining the compressed sensing theory with the speaker recognition. Then the major algorithm of speaker recognition based on compressed sensing is advanced,that is the establishment of speakers’ characteristic database and matrix trace to obtain the maximum average coefficients matching. Oceans of experimental data indicate that this method has strong recognition ability and the performance is good when the collection of speakers is huge.
compressed sensing;speaker recognition;matrix trace;Gaussian mixture model
2013-12-15修改日期:2013-01-08
TN912.34
:A
:1005-9490(2014)06-1151-04
10.3969/j.issn.1005-9490.2014.06.029