唐宗渤, 周 萍,王茂蓉,劉繼錦
(1.桂林電子科技大學(xué) 信息科技學(xué)院,廣西 桂林 541004; 2.桂林電子科技大學(xué) 電子工程與自動(dòng)化學(xué)院,廣西 桂林 541004)
?
反蓄意模仿說(shuō)話人識(shí)別系統(tǒng)中特征參數(shù)提取的研究*
唐宗渤1, 周萍2,王茂蓉2,劉繼錦2
(1.桂林電子科技大學(xué) 信息科技學(xué)院,廣西 桂林 541004; 2.桂林電子科技大學(xué) 電子工程與自動(dòng)化學(xué)院,廣西 桂林 541004)
摘要:當(dāng)模仿者蓄意模仿說(shuō)話人的語(yǔ)音且相似度極高時(shí),說(shuō)話人識(shí)別系統(tǒng)就有可能被欺騙。特征參數(shù)的提取是說(shuō)話人識(shí)別的關(guān)鍵環(huán)節(jié),直接影響了系統(tǒng)的識(shí)別性能。MFCC是語(yǔ)音識(shí)別中最熱門(mén)的特征參數(shù)之一,但由于其只反映了語(yǔ)音的靜態(tài)特性,為了提取更具個(gè)人語(yǔ)音特性的特征參數(shù),引入加權(quán)MFCC,同時(shí)結(jié)合離散小波變換得到DWTWC,根據(jù)增減分量法,提出了DWI-MFCC。實(shí)驗(yàn)表明,DWI-MFCC倒譜系數(shù)比MFCC能更有效地區(qū)分語(yǔ)音的相似度。
關(guān)鍵詞:特征參數(shù); MFCC; 蓄意模仿; 增減分量法
引用格式:唐宗渤, 周萍,王茂蓉,等. 反蓄意模仿說(shuō)話人識(shí)別系統(tǒng)中特征參數(shù)提取的研究[J].微型機(jī)與應(yīng)用,2016,35(12):18-20.
0引言
生物認(rèn)證技術(shù)[1]作為一種身份鑒別技術(shù),它具有安全、方便等優(yōu)點(diǎn)。但與其他生物特性相比,聲音更容易被模仿,特別在蓄意模仿與目標(biāo)說(shuō)話人的語(yǔ)音相似度極高時(shí),就給識(shí)別系統(tǒng)的魯棒性帶來(lái)嚴(yán)峻考驗(yàn)。有效的聲學(xué)特征,可大大提高識(shí)別性能。常用的特征參數(shù)有基因頻率、線性預(yù)測(cè)參數(shù)LPC、Mel頻率倒譜系數(shù)[2]MFCC等。其中MFCC能充分模擬人耳的聽(tīng)覺(jué)感知特性,應(yīng)用較多。但其只能體現(xiàn)語(yǔ)音的靜態(tài)特征,為了提取更具個(gè)人特性的參數(shù),本文對(duì)MFCC作加權(quán)處理,結(jié)合離散小波變換引進(jìn)DWTWC,根據(jù)增減分量法,提出DWI-MFCC。實(shí)驗(yàn)表明,DWI-MFCC比傳統(tǒng)MFCC更能區(qū)分語(yǔ)音的相似度,提高識(shí)別系統(tǒng)的魯棒性。
1特征參數(shù)的提取
1.1Mel頻率倒譜系數(shù)
MFCC[2]作為模擬人耳特殊感知能力的參數(shù)得到研究者的推崇。其實(shí)際頻率f與Mel頻率fMel之間的轉(zhuǎn)換關(guān)系如式(1)所示,其中fMel的單位為Mel,f的單位為Hz。MFCC的提取過(guò)程如圖1所示,其參數(shù)分布示例圖如圖2所示。
(1)
圖1 MFCC參數(shù)提取流程圖
圖2 MFCC的參數(shù)分布示例圖
由圖2可知,隨著維數(shù)的升高,MFCC變化幅度變小,升高到一定程度后,系統(tǒng)識(shí)別性不僅沒(méi)有提高,反而增加了運(yùn)算量。
1.2加權(quán)Mel頻率倒譜系數(shù)
為了得到更具區(qū)分性的加權(quán)特征參數(shù),本文采用升半正弦函數(shù)[3]進(jìn)行加權(quán),如式(2)所示:
r=0.5+0.5*sin(π*(i-1)/n)
(2)
其中i=1,2,…,n為維數(shù),本文n=24,0.5是靜態(tài)分量。為了更準(zhǔn)確地體現(xiàn)不同說(shuō)話人的個(gè)性特征差異[4],本文提出另一種加權(quán)函數(shù)如式(3)所示,得到改進(jìn)的加權(quán)特征參數(shù)IWMFCC。
(3)
1.3DWTWC語(yǔ)音特征參數(shù)提取
在提取特征參數(shù)時(shí),用離散小波變換代替傅里葉變換,用中頻區(qū)域分布密集的Mid-Mel濾波器組[5-6]代替原來(lái)的濾波器, DWTWC參數(shù)的提取步驟如下:首先對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重、分幀加窗等;接著用離散小波變換[7]對(duì)預(yù)處理后的信號(hào)進(jìn)行處理,選擇適當(dāng)?shù)男〔ɑ头纸鈱訑?shù)對(duì)其分解,并計(jì)算小波系數(shù);然后利用頻譜的拼接把系數(shù)組成一組參數(shù),求其能量;最后取對(duì)數(shù),再經(jīng)過(guò)DCT可得到相應(yīng)的DWTWC。其提取過(guò)程如圖3所示。
圖3 DWTWC的提取流程圖
與MFCC提取流程不同的是其前端處理采用離散小波變換[8],Mel濾波器換成了Mid-Mel濾波器組,有效補(bǔ)充了中頻區(qū)域的語(yǔ)音信息。
2DWI-MFCC混合特征參數(shù)
為了提高識(shí)別率,需對(duì)MFCC、WMFCC、IMFCC和DWTWC進(jìn)行融合,用增減分量法[9]對(duì)維度進(jìn)行篩選,將對(duì)識(shí)別率貢獻(xiàn)最大的n階分量進(jìn)行組合,得到新的混合特征參數(shù),如式(4)所示:
(4)
其中,n為階數(shù),p(i,j)為從第i到第j階的識(shí)別率,R(i)為第i階分量平均貢獻(xiàn)值,若其大于0,則對(duì)識(shí)別有貢獻(xiàn),反之則使識(shí)別率下降。文中僅順序摒棄或增添特征分量[10]。由式(4)計(jì)算出各參數(shù)中對(duì)識(shí)別率貢獻(xiàn)最大的特征分量,對(duì)其組合得到新的特征參數(shù),即 DWI-MFCC。
3實(shí)驗(yàn)結(jié)果與分析
3.1不同特征參數(shù)歐氏距離排名對(duì)比
本文從專業(yè)配音網(wǎng)站提取語(yǔ)音庫(kù),采樣頻率為8 kHz,量化精度為16 bit。提取16階MFCC,計(jì)算被模仿者與模仿者語(yǔ)音的MFCC和DWI-MFCC的歐氏距離,然后對(duì)其從小到大排序得到表1。
表1 MFCC和DWI-MFCC的歐氏距離排名
表2 不同的特征參數(shù)的錯(cuò)誤
由表1可得,采用DWI-MFCC的原語(yǔ)音和模仿語(yǔ)音的排名一致性高達(dá)87.5%,證明 DWI-MFCC不但有效補(bǔ)充了MFCC在中頻區(qū)域的語(yǔ)音信息,而且很好地體現(xiàn)了語(yǔ)音個(gè)性特征;而采用MFCC時(shí),排名一致性只有43.75%,這是因?yàn)镸FCC中只包含了語(yǔ)音的靜態(tài)特性。綜上,本文提出的DWI-MFCC對(duì)語(yǔ)音模仿的區(qū)分能力更強(qiáng),能更有效區(qū)分出原語(yǔ)音和被模仿語(yǔ)音。
3.2不同特征參數(shù)實(shí)驗(yàn)結(jié)果的對(duì)比
為驗(yàn)證特征參數(shù)的語(yǔ)音模仿區(qū)分性能,建立基于SVM的蓄意模仿識(shí)別系統(tǒng),首先選取80人模仿語(yǔ)音庫(kù)中16位名人的聲音。訓(xùn)練階段,先提取目標(biāo)說(shuō)話人與待測(cè)試說(shuō)話人的特征參數(shù),將其分別記為“+1”類和“-1”類并用以訓(xùn)練出目標(biāo)說(shuō)話人的SVM模型。測(cè)試階段,將待測(cè)試語(yǔ)音與目標(biāo)說(shuō)話人的模型進(jìn)行匹配,再和預(yù)先設(shè)定的閾值進(jìn)行比較。本文選取徑向基函數(shù)作為SVM的核函數(shù),懲罰系數(shù)為3,核函數(shù)參數(shù)為0.6。實(shí)驗(yàn)采用16階的MFCC和DWI-MFCC分別作為樣本建立SVM模型,對(duì)數(shù)據(jù)進(jìn)行[0,1]歸一化,計(jì)算出每個(gè)被模仿者使用不同特征參數(shù)時(shí)的錯(cuò)誤接受率(FA),如表2所示,圖4給出了兩者的錯(cuò)誤接受率的對(duì)比圖。
圖4 采用不同特征參數(shù)的錯(cuò)誤接受率(FA%)對(duì)比
從圖4可知,MFCC的錯(cuò)誤接受率曲線處于DWI-MFCC的曲線上方,即DWI-MFCC參數(shù)的錯(cuò)誤接受率比MFCC參數(shù)的低,從而更有力地說(shuō)明DWI-MFCC的區(qū)分性能比MFCC的要好。
4結(jié)論
本文通過(guò)對(duì)MFCC特征參數(shù)的分布分析,提出了加權(quán)MFCC,同時(shí)結(jié)合離散小波變換引入了DWTWC,根據(jù)增減分量法,提出了DWI-MFCC。從理論和實(shí)驗(yàn)兩個(gè)方面對(duì)特征參數(shù)的有效性進(jìn)行了分析,同時(shí)采用SVM對(duì)反蓄意模仿系統(tǒng)進(jìn)行匹配分析。實(shí)驗(yàn)表明,本文提出的DWI-MFCC相比于傳統(tǒng)的MFCC,對(duì)語(yǔ)音模仿的區(qū)分能力更強(qiáng),有更好的識(shí)別性能。
參考文獻(xiàn)
[1] 李建文,張晉平.基于改進(jìn)語(yǔ)音特征提取方法的語(yǔ)音識(shí)別[J].微電子學(xué)與計(jì)算機(jī),2009,26(7):230-233.
[2] 柯晶晶,周萍,景新幸,等.差分和加權(quán)Mel倒譜混合參數(shù)應(yīng)用于說(shuō)話人識(shí)別[J].微電子學(xué)與計(jì)算機(jī),2014,31(9):89-91.
[3] 吳迪,曹潔,王進(jìn)花.基于自適應(yīng)高斯混合模型與靜動(dòng)態(tài)聽(tīng)覺(jué)特征融合的說(shuō)話人識(shí)別[J].光學(xué)精密工程,2013,21(6):1598-1604.
[4] 陳明義,余伶俐,朱晗,等.基于特征參數(shù)融合的語(yǔ)音情感識(shí)別方法[J].微電子學(xué)與計(jì)算機(jī),2006,23(12):168-171.
[5] 田永紅. 一種優(yōu)化的語(yǔ)音特征參數(shù)提取方法仿真[J]. 計(jì)算機(jī)仿真,2013,30(12):162-165.
[6] 吳麗芳. 語(yǔ)音轉(zhuǎn)換系統(tǒng)中特征參數(shù)的研究[D].南京:南京郵電大學(xué),2013.
[7] 楊陽(yáng),毛永毅,鄭敏,等.基于小波變換的AOA定位算法[J].微型機(jī)與應(yīng)用,2014,33(3):47-49,54.
[8] 胡沁春,何怡剛,何靜,等.高斯類小波變換的開(kāi)關(guān)電流頻域法實(shí)現(xiàn)[J].電子技術(shù)應(yīng)用,2014,40(1):44-46.
[9] 曹孝玉. 說(shuō)話人識(shí)別中的特征參數(shù)提取研究[D].長(zhǎng)沙:湖南大學(xué),2012.
[10] 張璇. 基于Fisher準(zhǔn)則的說(shuō)話人識(shí)別特征參數(shù)提取研究[D].長(zhǎng)沙:湖南大學(xué),2013.
*基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61363005);國(guó)家自然科學(xué)基金資助項(xiàng)目(61462017);廣西研究生教育創(chuàng)新計(jì)劃資助項(xiàng)目(YCSZ2015152)
中圖分類號(hào):TP391.42
文獻(xiàn)標(biāo)識(shí)碼:A
DOI:10.19358/j.issn.1674- 7720.2016.12.007
(收稿日期:2016-02-29)
作者簡(jiǎn)介:
唐宗渤(1986-),男,助理工程師,主要研究方向:語(yǔ)音信號(hào)處理與智能控制。
周萍(1961-),女,碩士,教授,主要研究方向:語(yǔ)音識(shí)別與智能控制研究。
王茂蓉(1990-),女,碩士研究生,主要研究方向:語(yǔ)音識(shí)別與反蓄意模仿。
Research of characteristic parameters extraction in speaker recognition system of anti-deliberate imitation
Tang Zongbo1, Zhou Ping2, Wang Maorong2, Liu Jijin2
(1.Department of Information Science and Technology, Guilin University of Electronic Technology, Guilin 541004, China;2.Department of Electric Engineering and Automation, Guilin University of Electronic Technology, Guilin 541004, China)
Abstract:When imitators deliberately imitate the speaker’s voice, and they have high similarity, speaker recognition system may be deceived. The extraction of feature parameters is key in speaker recognition, which directly affects the recognition performance. MFCC is one of the most popular feature parameters, but due to it only reflects static characteristics of voice, we introduce weighted MFCC to extract parameters of more individual voice. In combination with discrete wavelet transform, we introduce the DWTWC. According to increase or decrease in weight method, DWI-MFCC is proposed. The experimental result shows that the DWTWC is better than MFCC in distinguishing speech similarity.
Key words:feature parameter; MFCC; deliberate imitation; method of increasing or decreasing the component