亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于DTW模型補償?shù)膫窝b語音說話人識別研究

2017-02-22 07:10:22李燕萍陶定元

計算機技術(shù)與發(fā)展 2017年1期

關(guān)鍵詞：模型

李燕萍,陶定元,林樂

(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇南京 210003)

基于DTW模型補償?shù)膫窝b語音說話人識別研究

李燕萍,陶定元,林樂

(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇南京 210003)

語音變聲器及各種手機變聲軟件的出現(xiàn)，在提供了極其方便且豐富的娛樂交互體驗的同時，也給語音通信帶來了新的安全問題。由于其產(chǎn)生的電子偽裝語音掩蓋了語音本身的個性特征，對現(xiàn)有的說話人識別技術(shù)來說是一種挑戰(zhàn)，且一旦被犯罪分子利用，后果將十分嚴重。因此，偽裝語音說話人識別的研究成為當下的研究熱點。提出一種針對電子偽裝語音的說話人識別方法。對于由手機變聲軟件產(chǎn)生的電子偽裝語音,提取該語音的梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)作為特征參數(shù)，通過動態(tài)時間規(guī)整(Dynamic Time Warping,DTW)模型進行偽裝程度鑒定，再利用矢量量化(Vector Quantization，VQ)模型進行說話人識別，從而設(shè)計了DTW與VQ相結(jié)合的電子偽裝語音說話人識別系統(tǒng)。實驗結(jié)果表明：該系統(tǒng)能夠有效解決VQ說話人識別系統(tǒng)對電子偽裝語音識別率過低的問題,識別效果得到了明顯改善。

電子偽裝語音；梅爾倒譜系數(shù)；說話人識別；動態(tài)時間規(guī)整；矢量量化

0 引言

近年來，手機變聲軟件的流行，在豐富人們業(yè)余生活的同時，也給犯罪分子進行違法犯罪活動提供了新的途徑[1-3]。犯罪分子通過手機變聲軟件產(chǎn)生的電子偽裝語音能掩蓋自身語音，從而躲避公安機關(guān)的偵查，給此類案件的偵破增加了不少阻力[1,4]。

語音作為人與人之間交流的基本方式之一，也是重要的生物特征之一。目前在說話人識別領(lǐng)域，作為表征個體之間差異的特征參數(shù)主要有MFCC和線性預(yù)倒譜系數(shù)(Linear Prediction Cepstrum Coefficient，LPCC)。其中MFCC是基于聽覺特性，LPCC是基于聲道特性[5]。文中選取MFCC作為語音特征參數(shù)。

手機變聲軟件主要通過改變原始語音的音調(diào)，產(chǎn)生電子偽裝語音。隨著偽裝程度的加深，說話人的原始語音與偽裝處理后的語音差異增大[6-7]。目前常用的VQ說話人識別模型對電子偽裝語音的識別率低下，無法完成識別此類語音的任務(wù)。在這種情況下，文中提出一種適用于識別電子偽裝語音的新模型——DTW與VQ相結(jié)合的模型，并將兩者結(jié)合之后對VQ識別系統(tǒng)的性能進行分析，最后通過實驗完成對該系統(tǒng)性能的測試。提高對電子偽裝語音的識別率有助于與手機變聲軟件相關(guān)的違法犯罪案件，提高對犯罪嫌疑人身份的辨識度，從而為公安機關(guān)偵破此類案件提供幫助。

1 基于DTW與VQ的識別模型

1.1 電子偽裝語音偽裝程度的量化

在進行電子偽裝語音識別模型研究之前，需要對偽裝程度概念進行量化處理。文中的電子偽裝語音由名為“高保真錄音變聲器”的手機變聲軟件產(chǎn)生，該軟件主要通過改變音調(diào)來偽裝原始語音。音調(diào)改變分為正向與負向兩種，正向即提高原始語音的音調(diào)，改變幅度為1，負向即降低原始語音的音調(diào)，改變幅度同樣為1。偽裝程度可用符號加改變量表示。例如，一段語音音調(diào)提高了9個幅度，其偽裝程度可用+9表示。通過測試發(fā)現(xiàn)，經(jīng)過該軟件處理后，偽裝程度高于+11以及低于-11的電子偽裝語音語義基本喪失，即無法通過人耳辨別出此段語音的內(nèi)容。據(jù)此將偽裝程度分為從-11至+11的22個偽裝級別，這與電子偽裝語音的半音分類[8-9]類似。

1.2 DTW匹配模型

動態(tài)時間規(guī)整(DTW)是一種基于時間規(guī)整與距離測度的非線性規(guī)整技術(shù)[10]。模板中已存在的語音稱為參考模板，用于測試的語音稱為測試模板。動態(tài)時間規(guī)整需要尋找一個時間規(guī)整函數(shù)m=ω(n)，使得測試模板的時間軸n非線性映射到參考模板時間軸m上，函數(shù)ω應(yīng)滿足：

(1)

其中，T(n)為測試模板第n幀的特征參數(shù)；d[T(n),R(ω(n))]與參考模板第m幀的特征參數(shù)R(m)之間的歐氏距離測度；M、N為參考模板與測試模板的長度；D為測試模板矢量與參考模板矢量之間的最佳匹配路徑。

但是動態(tài)規(guī)劃計算量較大，所以采用DTW改進型路徑[11]，改進后的匹配路徑算法為：

D(n,m)=d(n,m)+min[D(n-1,m), D(n-1,m-1),D(n-1,m-2)]

(2)

其中，d(n,m)是d[T(n),R(ω(n))]的簡寫。

利用DTW算法可實現(xiàn)對電子偽裝語音偽裝程度的鑒定，該理論基于假設(shè)：偽裝程度相同或相似的語音更容易匹配。其過程為：將一段待測語音與系統(tǒng)參考模板中的某個說話人的多段偽裝語音進行匹配，可得到一個偽裝程度的最佳估計值，若模板中有N個人的多段偽裝語音，則得到N個偽裝程度估計值，再取其平均值，由于偽裝程度是整數(shù)值，所以結(jié)果需要進行四舍五入處理，最終結(jié)果作為該語音的偽裝程度估計值。

1.3 VQ識別模型

在說話人識別領(lǐng)域，矢量量化(VQ)是一種重要的信號壓縮和識別方法[12-13]，而VQ碼本的設(shè)計對VQ有著重要的影響，一個擁有M個說話人集合的系統(tǒng)需要為每一個人建立碼本Y1，Y2，…，YM。目前，生成碼本最常用的方法是LBG算法[14]，對訓(xùn)練矢量集合以及某種迭代算法生成更符合訓(xùn)練語音特征的碼本。在識別時，提取待識別語音的特征矢量序列X1，X2，…，XN，并用已生成的碼本對特征矢量序列依次進行矢量量化[15]，并計算平均量化誤差，公式為：

(3)

最終平均矢量量化誤差Di最小值所對應(yīng)的第i個說話人即為系統(tǒng)的識別結(jié)果。

在電子偽裝語音偽裝程度已知的情況下，對VQ識別模型進行補償，調(diào)整訓(xùn)練語音的偽裝程度使其與測試語音相同，完成說活人識別向電子偽裝語音說話人識別的過渡。

1.4 DTW與VQ相結(jié)合的模型

通過DTW模型鑒定偽裝程度，再通過VQ模型進行識別，完成對電子偽裝語音的說話人識別，其系統(tǒng)框圖如圖1所示。

圖1 DTW與VQ相結(jié)合的模型框圖

2 實驗分析

實驗所用硬件為PC并配備普通聲卡，軟件為Matlab開發(fā)平臺，錄音環(huán)境為普通機房。

有15位男生和15位女生共計30人參與錄音，每人采集從偽裝程度-11到+11的22段語音，共計660段語音，作為DTW的參考模板語音，同時也是VQ模型的訓(xùn)練語音。語音長度為20 s左右，內(nèi)容為一段描述性語句,由于內(nèi)容較長，故不在此贅述。30位參與者錄制測試語音，語音內(nèi)容選為“不許報警，不許讓別人知道，否則你的孩子就沒命了”，長度為5 s左右，經(jīng)過偽裝處理，得到660段語音。

對實驗語音進行端點檢測，得到有效語音段。之后進行預(yù)加重、分幀(幀長256，幀移128)、加窗(漢明窗)處理，提取20維的MFCC參數(shù)。選取一段語音為例，語音內(nèi)容為：“今天是5月21號，天氣很好萬里無云”，提取該段語音的MFCC，如圖2所示。經(jīng)過電子偽裝處理(偽裝程度為+11)之后再提取其MFCC，如圖3所示。

圖2 提取一段正常語音的MFCC

圖3 提取偽裝語音的MFCC

通過對比圖2與圖3可知，正常語音經(jīng)過電子偽裝之后，特征參數(shù)MFCC會發(fā)生明顯的改變。

實驗根據(jù)測試語音和訓(xùn)練語音是否經(jīng)過偽裝處理分為四個部分：

(1)測試語音與訓(xùn)練語音均為30人的正常語音，各計30段。

(2)測試語音是30人的偽裝語音(660段)，訓(xùn)練語音是30人的正常語音(30段)。

(3)測試語音與訓(xùn)練語音均為30人的偽裝語音，各計660段且偽裝程度未知。

(4)測試語音與訓(xùn)練語音均為30人的偽裝語音，各計660段且偽裝程度已知。

實驗部分(4)中，在電子偽裝語音識別之前通過DTW模型進行偽裝程度鑒定，使測試語音與訓(xùn)練語音的偽裝程度已知。

DTW模型對于偽裝程度的鑒定效果如圖4和圖5所示。

圖4 測試語音偽裝程度鑒定值

圖5 測試語音偽裝程度鑒定值方差

由圖4可知，30人的電子偽裝語音經(jīng)過DTW匹配之后的偽裝程度均值曲線與實際偽裝程度曲線比較接近，說明匹配效果良好。由圖5可知，30人的電子偽裝語音經(jīng)過DTW匹配之后偽裝程度方差值在0～3之間，說明偽裝程度鑒定值的浮動較小，DTW匹配模型較為穩(wěn)定。經(jīng)過鑒定之后30人的偽裝語音的偽裝程度可視為已知。

實驗識別階段采用VQ識別模型。碼本長度分別選擇16，32，64。四部分實驗中VQ模型的識別率如表1所示。

表1 四部分實驗VQ系統(tǒng)識別率匯總表

由表1可知，經(jīng)過DTW模型匹配之后，VQ模型識別效果與實驗部分(2)相比，按照不同碼本識別率分別提高了59.39%，61.06%和62.12%；與實驗部分(3)相比，按照不同碼本識別率分別提高了11.67%，11.36%，11.06%；與實驗部分(1)相比，按照不同碼本識別率分別降低了7.42%，5.30%和5.46%，說明DTW與VQ相結(jié)合的模型在電子偽裝語音存在的情況下，識別性能有很大提升，識別效果明顯改善。但在說話人識別領(lǐng)域，該模型的識別效果并不理想，后續(xù)的研究可以通過使用改進后的偽裝鑒定模型或者選取更為有效的特征參數(shù)等方法來進一步提高系統(tǒng)的性能。

3 結(jié)束語

電子偽裝語音的存在，使得基于VQ模型的說話人識別性能降低，識別效果變得不理想。文中利用DTW模型匹配出測試語音的偽裝程度，再將VQ模型訓(xùn)練語音的偽裝程度調(diào)整至與測試語音同一偽裝程度層面，實現(xiàn)對該模型的補償，使其性能得到明顯改善。實驗結(jié)果表明：經(jīng)過補償之后的VQ模型對電子偽裝語音的識別性能顯著提升，識別效果良好。

[1] Neustein A,Patil H A.Forensic speaker recognition:law enforcement and counter-terrorism[M].[s.l.]:Springer,2011.

[2] 張翠玲,譚鐵軍,劉昇.偽裝語音的自動話者識別研究[J].刑事技術(shù),2007(2):18-21.

[3] 張翠玲.偽裝語音的聲學(xué)研究[D].天津:南開大學(xué),2005.

[4] 張桂清,金怡珠,劉紅偉,等.電子偽裝語音的變聲規(guī)律研究[J].證據(jù)科學(xué),2010,18(4):503-509.

[5] 余建潮,張瑞林.基于MFCC和LPCC的說話人識別[J].計算機工程與設(shè)計,2009,30(5):1189-1191.

[6] Tan T J.The effect of voice disguise on automatic speaker recognition[C]//Proceedings of 3rd international congress on image and signal processing.Yantai:IEEE,2010:3538-3541.

[7] Zhang C,Tan T.Voice disguise and automatic speaker recognition[J].Forensic Sci. Int.,2008,175(2-3):118-122.

[8] Wu H J,Wang Y,Huang J W.Blind detection of electronic disguised voice[C]//Proceedings of IEEE international conference on acoustics,speech and signal processing.Vancouver,BC:IEEE,2013:3013-3017.

[9] Wu H J,Wang Y,Huang J W.Identification of electronic disguised voices[J].IEEE Transactions on Information Forensics And Security,2014,9(3):489-500.

[10] 文翰,黃國順.語音識別中DTW算法改進研究[J].微計算機信息,2010,26(7-1):195-197.

[11] 劉長明,任一峰.語音識別中DTW特征匹配的改進算法研究[J].中北大學(xué)學(xué)報:自然科學(xué)版,2006,27(1):37-40.

[12] 丁艷偉,戴玉剛.基于VQ的說話人識別系統(tǒng)[J].電腦知識與技術(shù),2008,4(5):1181-1183.

[13] 趙力.語音信號處理[M].北京:機械工業(yè)出版社,2003.

[14] 孔勇平.矢量量化LBG算法的研究[J].硅谷,2008(6):39-40.

[15] 王偉,鄧輝文.基于MFCC參數(shù)和VQ的說話人識別系統(tǒng)[J].儀器儀表學(xué)報,2006,27:2253-2255.

Study on Electronic Disguised Voice Speaker Recognition Based on DTW Model Compensation

LI Yan-ping,TAO Ding-yuan,LIN Le

(College of Telecommunications & Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)

The appearance of voice changer and various voice software of mobile phone provides a very convenient and rich entertainment interaction experience,amd at the same time,also gives voice communication new security issues.Electronic disguised voice produced masks the personality characteristics of voice itself,so the existing speaker recognition technology is a challenge,and once they are used by criminals,the consequences will be severe.Therefore,disguised voice speaker recognition is becoming a research hotspots.In view of electronic disguised voice produced by cell phone voice software,Mel Frequency Cepstral Coefficients (MFCC) are extracted as the characteristic parameters of voice signals,identifying the disguised degree of it by DTW model and carrying out speaker recognition by VQ to design a speaker recognition system of electronic disguised voice.The experimental results show that the system can efficiently solve the problem that VQ has a poor recognition rate for electronic disguised voices,and improve the performance obviously.

electronic disguised voice;MFCC;speaker recognition;DTW;VQ

2015-08-25

2015-12-23

時間：2017-01-04

國家自然科學(xué)基金資助項目(61401227)；江蘇省博士后基金(1402067B)；智能語音技術(shù)公安部重點實驗室2014年度開放課題(2014ISTKFKT02)

李燕萍(1983-)，女，博士，副教授，研究方向為說話人識別、語音轉(zhuǎn)換；陶定元(1989-)，男，碩士研究生，研究方向為說話人識別。

http://www.cnki.net/kcms/detail/61.1450.TP.20170104.1017.016.html

TP302

1673-629X(2017)01-0093-04

10.3969/j.issn.1673-629X.2017.01.021

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于DTW模型補償?shù)膫窝b語音說話人識別研究

0 引 言

1 基于DTW與VQ的識別模型

2 實驗分析

3 結(jié)束語

0 引言