(杭州電子科技大學(xué),浙江 杭州310018)
基于CNN的連續(xù)語(yǔ)音說(shuō)話人聲紋識(shí)別
吳震東,潘樹誠(chéng),章堅(jiān)武
(杭州電子科技大學(xué),浙江 杭州310018)
近年來(lái),隨著社會(huì)生活水平的不斷提高,人們對(duì)機(jī)器智能人聲識(shí)別的要求越來(lái)越高。高斯混合—隱馬爾可夫模型(Gaussian of mixture-hidden Markov model,GMM-HMM)是說(shuō)話人識(shí)別研究領(lǐng)域中最重要的模型。由于該模型對(duì)大語(yǔ)音數(shù)據(jù)的建模能力不是很好,對(duì)噪聲的頑健性也比較差,模型的發(fā)展遇到了瓶頸。為了解決該問(wèn)題,研究者開始關(guān)注深度學(xué)習(xí)技術(shù)。引入了CNN深度學(xué)習(xí)模型研究連續(xù)語(yǔ)音說(shuō)話人識(shí)別問(wèn)題,并提出了CNN連續(xù)說(shuō)話人識(shí)別(continuous speaker recognition of convolutional neural network,CSR-CNN)算法。模型提取固定長(zhǎng)度、符合語(yǔ)序的語(yǔ)音片段,形成時(shí)間線上的有序語(yǔ)譜圖,通過(guò)CNN提取特征序列,經(jīng)過(guò)獎(jiǎng)懲函數(shù)對(duì)特征序列組合進(jìn)行連續(xù)測(cè)量。實(shí)驗(yàn)結(jié)果表明,CSR-CNN算法在連續(xù)—片段說(shuō)話人識(shí)別領(lǐng)域取得了比GMM-HMM更好的識(shí)別效果。
連續(xù)語(yǔ)音;語(yǔ)譜圖;GMM-HMM;深度學(xué)習(xí)
隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等技術(shù)的高速發(fā)展,實(shí)現(xiàn)人與電子產(chǎn)品之間的自由交互越來(lái)越受到人們的重視。聲紋識(shí)別技術(shù)在實(shí)現(xiàn)這一目標(biāo)中扮演著非常重要的角色。語(yǔ)音識(shí)別技術(shù)正在走向?qū)嵱?。蘋果公司于2011年收購(gòu)了Siri公司,并在 iPhone 4上應(yīng)用了語(yǔ)音識(shí)別功能,但當(dāng)時(shí)識(shí)別體驗(yàn)不理想。2013-2015年,蘋果公司相繼收購(gòu)了擁有識(shí)別整個(gè)短語(yǔ)的語(yǔ)音識(shí)別技術(shù)的Novauris公司和英國(guó)語(yǔ)音技術(shù)初創(chuàng)公司VocalIQ。與此同時(shí),谷歌在2011年收購(gòu)了語(yǔ)音通信公司 Say Now和語(yǔ)音合成公司 Phonetic Arts,2015年入資中國(guó)以導(dǎo)航為主的問(wèn)問(wèn)公司,并推出帶有語(yǔ)音識(shí)別技術(shù)的智能手表。Amazon在2011-2013年,相繼收購(gòu)語(yǔ)音識(shí)別領(lǐng)域的Yap語(yǔ)音識(shí)別公司、Evi語(yǔ)音技術(shù)公司和Ivona Software語(yǔ)音技術(shù)公司。Facebook于2013年后,相繼收購(gòu)了Mobile Technologics和Wit.ai語(yǔ)音識(shí)別公司,實(shí)現(xiàn)了用戶可以通過(guò)語(yǔ)音來(lái)控制應(yīng)用程序、穿戴設(shè)備和控制機(jī)器人等功能。微軟的Cortanna和微軟小冰在記錄用戶使用習(xí)慣和智能對(duì)話等功能,使人們生活更加智能化。國(guó)內(nèi)百度語(yǔ)音、科大訊飛等科技公司在語(yǔ)音識(shí)別領(lǐng)域也在進(jìn)行大量的應(yīng)用基礎(chǔ)及應(yīng)用性研究。
與語(yǔ)音識(shí)別技術(shù)發(fā)展階段相似,聲紋識(shí)別技術(shù)也在走向?qū)嵱谩,F(xiàn)有技術(shù)在長(zhǎng)文本、低噪聲聲紋識(shí)別時(shí),已達(dá)到較高識(shí)別率。但是在片段語(yǔ)音環(huán)境下,常用的線性預(yù)測(cè)頻率倒譜系數(shù)(linear prediction cepstrum coefficient)和 Mel頻率倒譜系數(shù)(mel frequency cepstrum coefficient)等聲學(xué)特征,識(shí)別率明顯下降。在模式識(shí)別方面,靜態(tài)說(shuō)話人模型包括:高斯混合模型[1](Gaussian mixture model)、高混合通用背景模型 (Gaussian mixture model-universal background model)和支持向量機(jī)[2](support vector machine,SVM)。這些靜態(tài)模型在用特征描述目標(biāo)說(shuō)話人的時(shí)候有很好的效果。一般來(lái)說(shuō),傳統(tǒng)的重要模型包括Douglas Reynolds提出的UBM-MAP-GMM模型、Patrick Kenny提出的 Joint Factor Analysis[3-6]和NajimDehak提出的 i-vector[7,8]。在一定程度上,可以把現(xiàn)有短語(yǔ)音聲紋識(shí)別模型視為不充分的聲學(xué)特征,該模型尚不能很完美地描述說(shuō)話人聲紋特點(diǎn)。
2006年,深層結(jié)構(gòu)模型在識(shí)別領(lǐng)域開始發(fā)光發(fā)熱,可以說(shuō)是語(yǔ)音、圖像識(shí)別領(lǐng)域突破性發(fā)展的重要一年。2006年之前,研究者們通過(guò)各種方式來(lái)搭建深層的架構(gòu)來(lái)實(shí)現(xiàn)語(yǔ)音和圖像的識(shí)別,但是都得不到好的結(jié)果。因?yàn)橛?xùn)練一個(gè)有深度的前饋神經(jīng)網(wǎng)絡(luò),用淺層的學(xué)習(xí)方法往往得不到理想的效果。當(dāng)層數(shù)越深時(shí),深層網(wǎng)絡(luò)的梯度就會(huì)變得很不穩(wěn)定,這使得深層次的梯度對(duì)之前層的關(guān)聯(lián)度幾乎喪失,從而導(dǎo)致模型訓(xùn)練效果急劇惡化。就在這一年,Hinton等人[9]首次提出了非監(jiān)督貪心逐層訓(xùn)練算法生成的模型——深度置信網(wǎng)絡(luò)[10](deep belief network,DBN),每一層都用訓(xùn)練數(shù)據(jù)來(lái)初始化深度神經(jīng)網(wǎng)絡(luò),優(yōu)化了深度網(wǎng)絡(luò)結(jié)構(gòu),一定程度上解決BP算法[11]帶來(lái)的局部最優(yōu)解問(wèn)題。卷積神經(jīng)網(wǎng)絡(luò)[12](convolutional neural network,CNN)被提出并大量應(yīng)用于圖像特征挖掘。
2009年以來(lái),深度學(xué)習(xí)方法逐漸被引入聲紋識(shí)別領(lǐng)域,用以對(duì)語(yǔ)音的深層特征加以挖掘,構(gòu)建更充分的聲紋識(shí)別模型,如遞歸神經(jīng)網(wǎng)絡(luò)[13](recurrent neural network,RNN)以及RNN的各種變型(LSTM模型)[14]。RNN模型的網(wǎng)絡(luò)結(jié)構(gòu)可以表達(dá)前后信息相關(guān)的時(shí)序效果,所以在語(yǔ)音識(shí)別方面有很大的優(yōu)勢(shì)。但目前而言,RNN及LSTM模型均未達(dá)到超越GMM模型的聲紋識(shí)別能力。
本文將目前更為成熟的深度神經(jīng)網(wǎng)絡(luò)CNN模型引入聲紋識(shí)別,構(gòu)建連續(xù)—片段語(yǔ)音,基于有序語(yǔ)譜圖的CNN聲紋識(shí)別系統(tǒng)取得了比GMM模型更好的聲紋識(shí)別能力。
聲紋識(shí)別是生物特征識(shí)別[15]中的一種,也被稱作說(shuō)話人識(shí)別,可分為說(shuō)話人辨別和說(shuō)話人確認(rèn)兩類。前者是在很多說(shuō)話人的情況下判斷是其中哪個(gè)說(shuō)話人所說(shuō)的,是“多對(duì)一”的過(guò)程;后者是判斷為某個(gè)說(shuō)話人說(shuō)所的。根據(jù)不同的任務(wù)需求和應(yīng)用場(chǎng)景,選取不同的聲紋識(shí)別技術(shù),如在支付交易或者遠(yuǎn)程登錄的時(shí)候需要確認(rèn)技術(shù),而在縮小目標(biāo)范圍的時(shí)候則需要辨別技術(shù)。
傳統(tǒng)的聲紋識(shí)別模型一般都是在隱馬爾可夫模型(hidden Markov model,HMM)[16]的基礎(chǔ)上建立的,而HMM是一種基于統(tǒng)計(jì)的特征識(shí)別方法。換句話說(shuō),是根據(jù)聲學(xué)模型和語(yǔ)言模型,通過(guò)最大后驗(yàn)概率來(lái)識(shí)別?,F(xiàn)階段基于深度學(xué)習(xí)的語(yǔ)音識(shí)別,模型通過(guò)對(duì)大量數(shù)據(jù)的訓(xùn)練,自動(dòng)地學(xué)習(xí)數(shù)據(jù)中的特征。表現(xiàn)一個(gè)人聲學(xué)層面的特征有好多種,包括解剖學(xué)聲學(xué)特征(倒頻譜、共振峰等)、語(yǔ)法特征、韻律特征、通道信息、語(yǔ)種、語(yǔ)調(diào)和習(xí)語(yǔ)等[17]。 傳統(tǒng)的聲紋識(shí)別方法需要研究者對(duì)這些聲學(xué)特征進(jìn)行人工分類。而在深度學(xué)習(xí)中,研究者不用知道聲學(xué)特征的相關(guān)信息,機(jī)器會(huì)自動(dòng)地學(xué)習(xí)數(shù)據(jù)中的聲紋特征信息。顯著提高了研究者的研究效率,并且經(jīng)過(guò)對(duì)大量數(shù)據(jù)的學(xué)習(xí),機(jī)器能夠?qū)W到更加完備的特征,效果比人工分類更好。
2.1 聲紋識(shí)別系統(tǒng)
一個(gè)完整的說(shuō)話人識(shí)別系統(tǒng)由聲學(xué)特征提取、統(tǒng)計(jì)模型和分值計(jì)算組成,如圖1所示。系統(tǒng)訓(xùn)練的過(guò)程是從原始的波形信號(hào)中提取語(yǔ)音的聲學(xué)特征,如詞、音節(jié)、音素及聲韻母等,并經(jīng)過(guò)訓(xùn)練得到一個(gè)聲學(xué)模型,這個(gè)模型作為識(shí)別語(yǔ)音聲學(xué)特征基元的模板,模型結(jié)合研究者通過(guò)對(duì)人類聲學(xué)特征研究得到的語(yǔ)言模型,經(jīng)過(guò)解碼器的處理輸出相應(yīng)的識(shí)別結(jié)果。
圖1 說(shuō)話人識(shí)別系統(tǒng)結(jié)構(gòu)
現(xiàn)有的語(yǔ)音識(shí)別模型運(yùn)用效果最好的為高斯混合模型(GMM),其基本過(guò)程為提取語(yǔ)音MFCC特征序列,運(yùn)用統(tǒng)計(jì)模型對(duì)輸出序列進(jìn)行概率評(píng)分,依據(jù)評(píng)分結(jié)果進(jìn)行識(shí)別判斷。具體過(guò)程如下。
2.2 特征提取
MFCC的整個(gè)提取過(guò)程如圖2所示。其中,幀周期持續(xù)10~25 ms,在這期間,聲音被認(rèn)為是靜止的。幀周期取20 ms的時(shí)候,移碼一般取10 ms。
預(yù)修正的部分是高通濾波器。數(shù)學(xué)表達(dá)式如下:
其中,a是預(yù)修正系數(shù),一般取0.95~0.97。頻率彎折能夠讓聲音有更好的表現(xiàn)特性,比如在聲頻壓縮方面。
漢明窗口能夠平滑幀信號(hào)的邊緣:
在音頻處理中,Mel頻率倒譜系數(shù)[18]表示聲音短期的功率譜。將功率譜取對(duì)數(shù)帶入Mel頻率倒譜系數(shù)中:
Mel頻率倒譜系數(shù)從音頻片段的倒譜表示中派生而來(lái),Mel倒譜系數(shù)和倒譜系數(shù)的區(qū)別在于,Mel頻率倒譜的頻帶劃分在Mel刻度上是等距的,這比一般的對(duì)數(shù)倒譜更加符合人類的聽覺系統(tǒng)。音頻的響應(yīng)函數(shù)如下:
其中,M是三角濾波器的總數(shù),m的取值范圍是0≤m<N。f(m)是Mel帶通濾波器組的第m個(gè)濾波器,其數(shù)學(xué)表達(dá)式如下:
其中,N是FFT的長(zhǎng)度。fh和fl分別是濾波器的最大頻率和最小頻率。是的反函數(shù),反函數(shù)的作用是把Mel頻率轉(zhuǎn)換到Hz頻率。數(shù)學(xué)表達(dá)式如下:
2.3 統(tǒng)計(jì)模型
GMM和UBM的訓(xùn)練過(guò)程如圖3所示。
圖2 MFCC提取過(guò)程
圖3 GMM和UBM的訓(xùn)練過(guò)程
給出一連串的特征向量 X={x1,…,xt,…,xm}和說(shuō)話人模型的依賴參數(shù)λ={ωi,μi,Σi},這些參數(shù)各自的迭代公式如下:
其中,第i次的后驗(yàn)概率為:
經(jīng)分值估算,達(dá)到某概率閾值之上,判定輸入語(yǔ)音為說(shuō)話者語(yǔ)音。概念估算計(jì)算式如下:
語(yǔ)音方面的深度學(xué)習(xí)模型一般都是RNN模型及它的變形LSTM模型。因?yàn)镽NN模型引入了定向循環(huán),能夠處理輸入之間前后關(guān)聯(lián)的問(wèn)題。這種識(shí)別技術(shù)一般應(yīng)用在機(jī)器翻譯、圖像描述生成等領(lǐng)域。在說(shuō)話人識(shí)別領(lǐng)域,RNN模型的識(shí)別效果并不是很理想。卷積神經(jīng)網(wǎng)絡(luò)在很多識(shí)別問(wèn)題上已經(jīng)有了很好的識(shí)別效果,比如手寫字體的識(shí)別、人臉識(shí)別、交通標(biāo)志分類、行人檢測(cè)、圖像標(biāo)注和行為檢測(cè)[19-24]。因?yàn)?CNN模型在圖像領(lǐng)域的優(yōu)越表現(xiàn),本文想通過(guò)圖像的方法來(lái)達(dá)到連續(xù)—片段語(yǔ)音說(shuō)話人識(shí)別的目的。本文結(jié)合CNN模型和聲紋的頻譜圖特征,在說(shuō)話人識(shí)別領(lǐng)域提出連續(xù)—片段語(yǔ)音說(shuō)話人識(shí)別(continuous speech recognition of convolutionalneuralnetwork,CSR-CNN)算法。
3.1 算法結(jié)構(gòu)
CSR-CNN由CSR和CNN兩個(gè)模型構(gòu)成。CSR是連續(xù)—片段說(shuō)話人識(shí)別模型,CNN為特征提取模型,其結(jié)構(gòu)如圖4所示。
圖4 CSR-CNN模型結(jié)構(gòu)
系統(tǒng)先將時(shí)域上的說(shuō)話人語(yǔ)音信息轉(zhuǎn)換為語(yǔ)譜圖(語(yǔ)音在時(shí)域上的表示是沒有任何聲學(xué)特征的),然后用訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)CNN模型,并用測(cè)試數(shù)據(jù)檢測(cè)模型正確率。訓(xùn)練好這個(gè)模型,將待檢測(cè)人的語(yǔ)譜圖分片傳入該模型,并提取它輸出特征向量。通過(guò)特征向量和標(biāo)簽特征向量得到一個(gè)lost方程,如果lost方程計(jì)算評(píng)分大于給定的一個(gè)閾值,那么給出一個(gè)懲罰函數(shù)值,反之給出一個(gè)獎(jiǎng)勵(lì)函數(shù)值。這兩個(gè)函數(shù)最終決定著說(shuō)話人識(shí)別函數(shù)的結(jié)果。當(dāng)說(shuō)話人識(shí)別函數(shù)達(dá)到某個(gè)閾值時(shí),就判定身份驗(yàn)證成功,反之驗(yàn)證失敗。
3.2 CNN模型
卷積神經(jīng)網(wǎng)絡(luò)可分為輸入層、卷積層、池化層和輸出層,如圖5所示,其中卷積層和池化層是卷積神經(jīng)網(wǎng)絡(luò)特有的。多個(gè)卷積核濾波器對(duì)原始輸入圖像卷積來(lái)提取多個(gè)抽象特征(線條、邊緣等),池化層對(duì)卷積層進(jìn)行池化處理,使提取的特征更加緊湊并減少神經(jīng)元個(gè)數(shù)。使用多個(gè)卷積層和池化層的組合可以提取更加具像的特征(眼睛、鼻子等)。最后,通過(guò)softmax分類器和全連接層輸出結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)有 3個(gè)主要的特征:局部感知域、權(quán)值共享和池化層。
圖5 CNN模型結(jié)構(gòu)
3.2.1 局部感知域
卷積神經(jīng)網(wǎng)絡(luò)中,本文把很小的鄰近區(qū)域作為輸入,如圖 6所示,5 dpi×5 dpi的卷積核窗口和輸入圖像做卷積,得到下一層圖像的一個(gè)像素點(diǎn)。其中被卷積部分就是局部感知域,每一個(gè)局部感知域在下一隱層中都有一個(gè)神經(jīng)元與之對(duì)應(yīng)。
圖6 局部感知區(qū)域示意
3.2.2 權(quán)值共享
如圖 7所示,每個(gè)卷積核都帶有一組自己的權(quán)值和bais值并會(huì)自左向右、自上向下依次和輸入圖像做卷積。這就說(shuō)明該卷積核特征映射圖的每一個(gè)神經(jīng)元都在檢測(cè)同一特征,只是這些特征位于圖片的不同地方,這使得識(shí)別目標(biāo)在不斷移動(dòng)時(shí)也能被識(shí)別。
圖7 卷基層特征圖提取示意
圖7舉例了3個(gè)特征映射圖,每一張?zhí)卣饔成鋱D都是通過(guò)一個(gè)權(quán)值共享的卷積核和輸入圖像卷積所得到。
每個(gè)卷積核只能提取一種特征,訓(xùn)練中需要初始化多個(gè)卷積核。就計(jì)算量而言,以取20個(gè)特征為例,其需要520個(gè)參數(shù),和全連接神經(jīng)網(wǎng)絡(luò)23 550個(gè)參數(shù)相比,大大降低了計(jì)算量。
系統(tǒng)搭建了一個(gè)有L個(gè)卷積隱層的CNN。其中X= (x0,x1,…,xN)是輸入向量,H=(h0,h1,…,hL)是中間層的輸出向量,Y=(y0,y1,…,yM)是模型的實(shí)際輸出,D=(d0,d1,…,dM)是目標(biāo)輸出,Vij是前一層輸出單元 i到隱層單元 j的權(quán)重,Wjk是隱層單元j到前一層輸出單元k的權(quán)重。另外,θk和j分別前一層輸出單元和隱層單元的閾值。
輸入數(shù)據(jù)和特征提取窗口做卷積,并通過(guò)一個(gè)激活函數(shù)(ReLU)得到下一層的特征圖。卷積表達(dá)式如下:
得到的特征圖作為下一個(gè)池化層的輸入,進(jìn)行降維處理。降維處理對(duì)系統(tǒng)有3個(gè)作用:讓特征更加緊湊,特出顯著特征;減少系統(tǒng)的訓(xùn)練參數(shù),n尺寸的池化層可以減少n2倍的參數(shù);增加系統(tǒng)的頑健性。
池化層的數(shù)學(xué)表達(dá)式如下:
其中,f(*)是激活函數(shù),系統(tǒng)中使用的激活函數(shù)是ReLU,其數(shù)學(xué)表達(dá)式如下:
經(jīng)過(guò)多個(gè)卷積層和池化層后,提取到的特征經(jīng)過(guò)最后一個(gè)全連接層得到一組特征向量,并通過(guò)分類器實(shí)現(xiàn)最后的分類。
3.3 CSR模型
引入CSR模型的目的是實(shí)現(xiàn)在連續(xù)語(yǔ)音的情況下,能夠不間斷地確定目標(biāo)說(shuō)話人的身份。CSR模型結(jié)構(gòu)如圖8所示。
圖8 CSR模型結(jié)構(gòu)
CSR模型中,設(shè)置一個(gè)獎(jiǎng)懲函數(shù),數(shù)學(xué)表達(dá)式如下:
其中,lostn是第n個(gè)待檢測(cè)語(yǔ)音數(shù)據(jù)在通過(guò)CNN模型訓(xùn)練后得到的歸一化特征向量和目標(biāo)特征向量的誤差函數(shù),b是根據(jù)模型識(shí)別率給定的誤差閾值。
由式(16)可以看出,當(dāng)lostn的值低于給定閾值的時(shí)候,給予說(shuō)話人識(shí)別函數(shù)一個(gè)獎(jiǎng)勵(lì)函數(shù),反之給予一個(gè)懲罰函數(shù)。
系統(tǒng)識(shí)別函數(shù)的數(shù)學(xué)表達(dá)式如下:
其中,φn是判斷第 n時(shí)刻的系統(tǒng)狀態(tài),f(lostn)是第n時(shí)刻的獎(jiǎng)懲函數(shù)。
設(shè)定說(shuō)話人識(shí)別函數(shù) φn取值區(qū)間為[c,d],即當(dāng)說(shuō)話人識(shí)別函數(shù)達(dá)到最大值或者最小值時(shí),它的值就不會(huì)改變,并且給出一個(gè)識(shí)別閾值w。
當(dāng)φn>w時(shí),則表示目標(biāo)說(shuō)話人身份鑒定成功;當(dāng)p<w時(shí),則表示目標(biāo)說(shuō)話人身份鑒定失敗。當(dāng)語(yǔ)音數(shù)據(jù)源源不斷輸入,該模型可以不間斷地確認(rèn)說(shuō)話人的身份。從φn值的設(shè)定可以看出,當(dāng)識(shí)別率P值處在峰值時(shí),即使因?yàn)橹車Z(yǔ)音環(huán)境發(fā)生短暫性的變化以及可能的誤判,也可以持續(xù)地確認(rèn)說(shuō)話人身份。
CSR模型對(duì)單獨(dú)的CNN模型的識(shí)別率有很高的提升。CSR-CNN模型的識(shí)別率數(shù)學(xué)表達(dá)式如下:
其中,Pn是識(shí)別函數(shù)在識(shí)別閾值上側(cè)的最小值出現(xiàn)的概率,Pm是識(shí)別函數(shù)在識(shí)別閾值下側(cè)的最大值出現(xiàn)的概率,α(a)是錯(cuò)誤接受率,β(a)是錯(cuò)誤拒絕率。在一般的模型中,Pn、Pm、α(a)和β(a)的取值一般為百分之幾,所以識(shí)別率P接近于1。所以CSR-CNN模型在連續(xù)—片段說(shuō)話人識(shí)別領(lǐng)域有很好的識(shí)別效果。
本文實(shí)驗(yàn)中所使用的數(shù)據(jù)庫(kù)包含目標(biāo)說(shuō)話人在實(shí)驗(yàn)室環(huán)境下隨機(jī)朗讀200個(gè)短語(yǔ)(每個(gè)短語(yǔ)持續(xù)1~2 s)以及目標(biāo)說(shuō)話人40 s的長(zhǎng)語(yǔ)句和攻擊者15 s的長(zhǎng)語(yǔ)句,咬字清晰,使用手持麥克風(fēng)錄制語(yǔ)音。
本文首先要對(duì)原始的語(yǔ)音信號(hào)進(jìn)行預(yù)處理。將時(shí)域上的語(yǔ)音信號(hào)進(jìn)行頻域上的轉(zhuǎn)換,生成 200個(gè)頻譜圖,并調(diào)整為258 dpi×258 dpi的大小,作為模型的輸入。將預(yù)處理后的頻譜圖作為輸入傳入CSR-CNN模型中,實(shí)驗(yàn)中設(shè)置的迭代步數(shù)為5 000步,在5 000步時(shí),lost方程趨于平穩(wěn),模型趨于最優(yōu),最終lost的值為0.03。當(dāng)步長(zhǎng)在0.02時(shí),本實(shí)驗(yàn)的CNN模型的識(shí)別率比較高,最終識(shí)別率為96%。訓(xùn)練完CNN模型,將連續(xù)說(shuō)話人識(shí)別模型和CNN模型集合進(jìn)行識(shí)別。將目標(biāo)說(shuō)話人和攻擊者的長(zhǎng)語(yǔ)句,進(jìn)行1~2 s的切片,分別得到30個(gè)和15個(gè)短語(yǔ)塊,并進(jìn)行頻域的轉(zhuǎn)換。將這35個(gè)短語(yǔ)塊按圖9和圖10的序列,分別組成語(yǔ)音序列1和語(yǔ)音序列2。
提取每個(gè)短語(yǔ)塊的輸出特征向量,結(jié)合目標(biāo)特征向量得到每個(gè)短語(yǔ)塊歸一化處理的lostn值。將 lostn的值輸入CSR模型,CSR模型通過(guò)對(duì)lostn的判斷來(lái)決定輸出一個(gè)獎(jiǎng)勵(lì)函數(shù)還是懲罰函數(shù),并輸入最后的系統(tǒng)判決函數(shù)。
運(yùn)行自己搭建的CNN實(shí)驗(yàn)?zāi)P?,?duì)準(zhǔn)備數(shù)據(jù)庫(kù)的說(shuō)話人識(shí)別率為92%,達(dá)到了一個(gè)較高的識(shí)別率水平。再結(jié)合CSR模型,對(duì)準(zhǔn)備的長(zhǎng)語(yǔ)句數(shù)據(jù)進(jìn)行識(shí)別,說(shuō)話人函數(shù)的輸出函數(shù)如圖11所示。
圖11中,當(dāng)說(shuō)話人函數(shù)的數(shù)值在虛線標(biāo)識(shí)區(qū)域的上方時(shí),即函數(shù)值大于2.5的時(shí)候,系統(tǒng)就認(rèn)為目標(biāo)說(shuō)話人被識(shí)別,反之則為識(shí)別失敗。通過(guò)對(duì)表2和實(shí)驗(yàn)結(jié)果圖11的對(duì)比可以發(fā)現(xiàn),表1和表2中都有15個(gè)攻擊者說(shuō)話人語(yǔ)音片段,而實(shí)驗(yàn)結(jié)果的圖11中語(yǔ)音序列1和語(yǔ)音序列2分別有17次和16次的函數(shù)下降過(guò)程。這說(shuō)明實(shí)驗(yàn)中語(yǔ)音序列1和語(yǔ)音序列2分別有17次和16次的識(shí)別結(jié)果為非目標(biāo)說(shuō)話人,即其中分別有2個(gè)說(shuō)話人語(yǔ)音片段和1個(gè)說(shuō)話人語(yǔ)音片段被誤判為攻擊者語(yǔ)音。經(jīng)過(guò)數(shù)據(jù)比較,本文發(fā)現(xiàn)在語(yǔ)音序列1中,第38和39個(gè)目標(biāo)說(shuō)話人語(yǔ)音片段經(jīng)過(guò)CNN模型被誤判為攻擊者語(yǔ)音;在語(yǔ)音序列2中,第9個(gè)目標(biāo)說(shuō)話人語(yǔ)音片段經(jīng)過(guò)CNN模型被誤判為攻擊者語(yǔ)音。但是將CNN結(jié)果輸入CSR模型后,這個(gè)誤判沒有影響系統(tǒng)的整體的結(jié)果。該系統(tǒng)對(duì)CNN模型的誤判率有一定的容錯(cuò)率,這提高了單CNN模型的識(shí)別率。
圖9 檢測(cè)語(yǔ)音1的語(yǔ)音片段序列
圖10 檢測(cè)語(yǔ)音2的語(yǔ)音片段序列
圖11 語(yǔ)音序列1和語(yǔ)音序列2的系統(tǒng)輸出函數(shù)
本文主要介紹了聲紋識(shí)別的發(fā)展進(jìn)程和目前應(yīng)用比較廣泛的幾個(gè)深度學(xué)習(xí)模型,并闡述了這幾個(gè)模型在語(yǔ)音識(shí)別領(lǐng)域中的應(yīng)用和發(fā)展現(xiàn)狀。最后通過(guò)結(jié)合語(yǔ)譜圖、CNN模型,在連續(xù)聲紋識(shí)別中提出了CSR-CNN算法。
語(yǔ)音作為人機(jī)交互的一個(gè)關(guān)鍵接口,在人工智能方面有非常廣泛的實(shí)際應(yīng)用前景。這幾年的研究表明,深度學(xué)習(xí)技術(shù)在聲紋識(shí)別領(lǐng)域能夠明顯提高聲紋識(shí)別系統(tǒng)的準(zhǔn)確率。
雖然深度學(xué)習(xí)技術(shù)在語(yǔ)音領(lǐng)域取得了很大的成果,但是為了能夠?qū)崿F(xiàn)更加高效的人際關(guān)系,還有很多技術(shù)難點(diǎn)要克服。比如:很深層訓(xùn)練網(wǎng)絡(luò)的梯度精確度問(wèn)題、在實(shí)際應(yīng)用中的噪聲頑健性問(wèn)題等。其中,噪聲頑健性問(wèn)題是現(xiàn)在語(yǔ)音識(shí)別中非常熱門的話題?,F(xiàn)階段實(shí)際應(yīng)用中,帶噪聲的語(yǔ)音識(shí)別率一般都不是很高。未來(lái)對(duì)于語(yǔ)音識(shí)別系統(tǒng)的研究方向應(yīng)該更加傾向于仿人腦聽覺系統(tǒng),隨著生物解剖學(xué)的發(fā)展,使模型不斷接近人腦的語(yǔ)音識(shí)別特性,將在這一領(lǐng)域持續(xù)研究。
[1]SU D,WU X,XU L.GMM-HMM acoustic model training by a two level procedure with Gaussian components determined by automatic model selection[C]//2010 IEEE International Conference on Acoustics Speech and Signal Processing,March 14-19,2010, Dallas,TX,USA.New Jersey:IEEE Press,2010:4890-4893.
[2]JOACHIMS T.Making large-scale SVM learning practical[J]. Technical Reports,1998,8(3):499-526.
[3]REYNOLDS D A,QUATIERI T F,DUNN R B.Speaker verification using adapted gaussian mixture models[J].Digital Signal Processing,2000,10(1-3):19-41.
[4]HEBERT M.Text-dependent speaker recognition[M].Heidelberg: Springer,2008:743-762.
[5]VOGT R J,LUSTI C J,SRIDHARAN S.Factor analysis modeling for speaker verification with short utterances[J]. Journal of Substance Abuse Treatment,2008,10(1):11-16.
[6]VOGT R,BAKER B,SRIDHARAN S.Factor analysis subspace estimation for speaker verification with short utterances[C]// INTERSPEECH 2008,Conference of the International Speech Communication Association,Sept6-10,2008,Brisbane,Australia. [S.l.:s.n.],2008:853-856.
[7]KANAGASUNDARAM A,VOGT R,DEAN D,et al.i-Vector based speaker recognition on shortutterances[C]//INTERSPEECH 2011(DBLP),August 27-31.2011,Florence,Italy.[S.l.:s.n.], 2011.
[8]LARCHER A,BOUSQUET P,KONG A L,et al.i-Vectors in the context of phonetically-constrained short utterances for speaker verification[C]//ICASSP,March 25-30,2012,Kyoto, Japan.New Jersey:IEEE Press,2012:4773-4776.
[9]HINTONGE,SALAKHUTDINOVRR.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786): 504-507.
[10]ZOU M,CONZEN S D.A new dynamic Bayesian network(DBN) approach for identifying gene regulatory networks from time course microarray data[J].Bioinformatics,2005,21(1):71-79.
[11]RUMELHART D E,MCCLELLAND J L.Parallel distributed processing[M]//Cambridge:The MIT Press,1986:45-76.
[12]ZORRIASSATINE F,TANNOCK J D T.A review of neural networks for statistical process control[J].Journal of Intelligent Manufacturing,1998,9(3):209-224.
[13]CHEN S H,HWANG S H,WANG Y R.An RNN-based prosodic information synthesizer for Mandarin text-to-speech[J]. IEEE Transactions on Speech&Audio Processing,1998,6(3): 226-239.
[14]TAN T,QIAN Y,YU D,et al.Speaker-aware training of LSTM-RNNS for acoustic modeling [C]// 2016 IEEE International Conference on Acoustics,Speech and Signal Processing,March 20-25,2016,Shanghai,China.New Jersey: IEEE Press,2016:5280-5284.
[15]GALES M J F.Maximum likelihood linear transformations for HMM-based speech recognition [J].Computer Speech & Language,1998,12(2):75-98.
[16]RAMASWAMY G N,GOPALAKRISHAN P S.Compression of acoustic features for speech recognition in network environments [C]//1999 IEEE International Conference on Acoustics,Speech and Signal Processing,May 15,1998,Seattle,WA,USA.New Jersey:IEEE Press,1998:977-980.
[17]PAN J,LIU C,WANG Z,et al.Investigation of deep neural networks (DNN)for large vocabulary continuous speech recognition:why DNN surpasses GMMS in acoustic modeling [C]//2012 International Symposium on Chinese Spoken Language Processing,Dec 5-8,2012,Kowloon Tong,China.New Jersey: IEEE Press,2012:301-305.
[18]HUANG Z,TANG J,XUE S,et al.Speaker adaptation of RNN-BLSTM for speech recognition based on speaker code[C]// IEEE International Conference on Acoustics,Speech and Signal Processing,March 20-25,2016,Shanghai,China.New Jersey: IEEE Press,2016:5305-5309.
[19]SAATCI E,TAVASANOGLU V.Multiscale handwritten character recognition using CNN image filters[C]//2002 International Joint Conference on Neural Networks,May 12-17,2002,Honolulu, HI,USA.New Jersey:IEEE Press,2002:2044-2048.
[20]LIU K,ZHANG M,PAN Z.Facial expression recognition with CNN ensemble [C]//International Conference on Cyberworlds, Sept 28-30,2016,Chongqing,China.New Jersey:IEEE Press, 2016:163-166.
[21]JURISIC F,FILKOVIC I,KALAFATIC Z.Multip le-dataset traffic sign classification with OneCNN[C]//Iapr Asian Conference on Pattern Recognition,Nov 3-6,2015,Kuala Lumpur,Malaysia. New Jersey:IEEE Press,2015:614-618.
[22]ZHANG L,LIN L,LIANG X,et al.Is faster R-CNN doing well for pedestrian detection?[M].Heidelberg:Springer-Verlag:443-457.
[23]ZHENG Y,LI Z,ZHANG C.A hybrid architecture based on CNN for image semantic annotation[M]//SHI Z Z,VADERA S, LI G.Intelligent Information Processing VIII,Heidelberg: Springer,2016:81-90.
[24]PARMAKSIZOGLU S,ALCI M.A novel cloning template designing method by using an artificial bee colony algorithm for edge detection of CNN based imaging sensors[J].Sensors,2011, 11(5):5337-5359.
Continuous speech speaker recognition based on CNN
WU Zhendong,PAN Shucheng,ZHANG Jianwu
Hangzhou Dianzi University,Hangzhou 310018,China
In the last few years,with the constant improvement of the social life level,the requirement for speech recognition is getting higher and higher.GMM-HMM(Gaussian mixture-hidden Markov model)have been the main method for speaker recognition.Because of the bad modeling capability of big data and the bad performance of robustness,the development of this model meets the bottleneck.In order to solve this question,researchers began to focus on deep learning technologies.CNN deep learning model for continuous speech speaker recognition was introduced and CSR-CNN model was put forward.The model extracts fixed-length and right-order phonetic fraction to form an ordered sound spectrograph.Then input the voiceprint extract from CNN model to a reward-penalty function to continuous measurement.Experimental results show that CSR-CNN model has very good recognition effectin continuous speech speaker recognition field.
continuous speech,sound spectrograph,GMM-HMM,deep learning
TP393
:A
10.11959/j.issn.1000-0801.2017046
吳震東(1976-),男,杭州電子科技大學(xué)網(wǎng)絡(luò)空間安全學(xué)院講師,主要研究方向?yàn)樯锾卣髯R(shí)別、生物密鑰、網(wǎng)絡(luò)安全、自然語(yǔ)言處理、人工智能等。
潘樹誠(chéng)(1991-),男,杭州電子科技大學(xué)通信工程學(xué)院碩士生,主要研究方向?yàn)榛谏疃葘W(xué)習(xí)的聲紋、人臉識(shí)別研究等。
章堅(jiān)武(1961-),男,杭州電子科技大學(xué)通信工程學(xué)院教授、博士生導(dǎo)師,主要研究方向?yàn)橐苿?dòng)通信系統(tǒng)、多媒體通信技術(shù)、網(wǎng)絡(luò)安全等。
2017-01-22;
2017-02-13
浙江省自然科學(xué)基金資助項(xiàng)目(No.LY16F020016);國(guó)家重點(diǎn)研發(fā)計(jì)劃經(jīng)費(fèi)資助項(xiàng)目(No.2016YFB0800201);浙江省重點(diǎn)科技創(chuàng)新團(tuán)隊(duì)項(xiàng)目(No.2013TD03)
Foundation Items:Zhejiang Natural Science Foundation of China(No.LY16F020016),National Key Research and Development Program of China (No.2016YFB0800201),Zhejiang Province Science and Technology Innovation Program(No.2013TD03)