趙 艷,呂 亮,趙 力
(1.南京工程學(xué)院電力工程學(xué)院,南京 211167;2.東南大學(xué)信息科學(xué)與工程學(xué)院,南京 210096)
基于改進(jìn)的深度神經(jīng)網(wǎng)絡(luò)的說(shuō)話人辨認(rèn)研究*
趙 艷1*,呂 亮3,趙 力3
(1.南京工程學(xué)院電力工程學(xué)院,南京 211167;2.東南大學(xué)信息科學(xué)與工程學(xué)院,南京 210096)
說(shuō)話人辨認(rèn)技術(shù)在許多領(lǐng)域有著廣泛的應(yīng)用前景。首先研究了兩種基本的深度神經(jīng)網(wǎng)絡(luò)模型(深度信念網(wǎng)絡(luò)和降噪自編碼)在說(shuō)話人辨認(rèn)上的應(yīng)用,深度神經(jīng)網(wǎng)絡(luò)通過(guò)逐層無(wú)監(jiān)督的預(yù)訓(xùn)練和有監(jiān)督的反向微調(diào)避免了反向傳播容易陷入局部最小值的缺陷,通過(guò)實(shí)驗(yàn)證明了當(dāng)神經(jīng)元個(gè)數(shù)達(dá)到一定數(shù)量之后深度網(wǎng)絡(luò)模型是優(yōu)于普通BP網(wǎng)絡(luò)的,并且其性能隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大而提升??紤]到大規(guī)模的深度網(wǎng)絡(luò)訓(xùn)練時(shí)間較長(zhǎng)的缺點(diǎn),提出使用整流線性單元(ReLU)代替?zhèn)鹘y(tǒng)的sigmoid類函數(shù)對(duì)說(shuō)話人識(shí)別的深度模型進(jìn)行改進(jìn),實(shí)驗(yàn)結(jié)果表明改進(jìn)后的深度模型平均訓(xùn)練時(shí)間減少了35%,平均誤識(shí)率降低了8.3%。
說(shuō)話人辨認(rèn);堆疊降噪自編碼;深度信念網(wǎng)絡(luò);整流線性單元
語(yǔ)音是人的自然屬性之一,由于每個(gè)人的語(yǔ)音中蘊(yùn)含不同特征,如果將這些特征提取出來(lái)作為標(biāo)識(shí),就可以在不同場(chǎng)合辨別說(shuō)話人的身份。說(shuō)話人識(shí)別又可以分為兩個(gè)范疇,即說(shuō)話人辨認(rèn)和說(shuō)話人確認(rèn)。另外按照說(shuō)話內(nèi)容又可以分為與文本有關(guān)的說(shuō)話人識(shí)別和與文本無(wú)關(guān)的說(shuō)話人識(shí)別[1]。隨著數(shù)字信號(hào)處理理論與人工智能的不斷發(fā)展,說(shuō)話人識(shí)別技術(shù)在電子商務(wù)、軍事、銀行等各個(gè)領(lǐng)域有了迅速發(fā)展,是當(dāng)今語(yǔ)音信號(hào)處理與識(shí)別領(lǐng)域的重要課題[2]。本文所做的工作是關(guān)于文本無(wú)關(guān)的說(shuō)話人辨認(rèn)的研究。
由于每個(gè)說(shuō)話人的個(gè)人特征具有長(zhǎng)時(shí)變動(dòng)性,并且每個(gè)說(shuō)話人的發(fā)音與環(huán)境、說(shuō)話時(shí)的情緒和健康程度有密切關(guān)系,同時(shí)實(shí)際過(guò)程中還可能引入背景噪聲等干擾因素,這些都會(huì)影響與文本無(wú)關(guān)說(shuō)話人識(shí)別系統(tǒng)的性能。對(duì)此,Tagashira S[3]等人提出了說(shuō)話人部分空間影射的方法,提取只含有個(gè)人信息的特征進(jìn)行說(shuō)話人識(shí)別,但該方法對(duì)于個(gè)人信息的長(zhǎng)時(shí)變動(dòng)沒(méi)有達(dá)到滿意的效果。Liu C S[4]等提出了基于最近冒名者的模型的方法,但因?yàn)楸仨氂?jì)算所有的冒名者的似然函數(shù),使得計(jì)算量的變大。Reynolds[5]提出了基于說(shuō)話人背景模型的平均似然函數(shù)來(lái)計(jì)算得分;Matsui和Furui[6]提出了基于后驗(yàn)概率的模型。Markov和Nakagawa[7]將整個(gè)語(yǔ)句分成若干幀,計(jì)算每幀得分,獲得總得分,但它沒(méi)有考慮目標(biāo)模型和非目標(biāo)模型的幀似然概率的特性。近年來(lái)在說(shuō)話人識(shí)別方法方面,基于高斯混合背景模型GMM-UBM(Gaussian Mixed Model-Universal Background Model)方法已成為主流的識(shí)別方法[8]?;贕MM超向量的支持向量機(jī)和因子分析方法[9-10]則代表GMM-UBM方法的新成果。
總之,以往關(guān)于說(shuō)話人辨認(rèn)的研究主要集中在GMM、HMM、SVM、LR等可以看作含有一層隱含層的模型。但是進(jìn)入到21世紀(jì),由于互聯(lián)網(wǎng)、物聯(lián)網(wǎng)產(chǎn)業(yè)的迅速發(fā)展,人類對(duì)大數(shù)據(jù)的處理的要求越來(lái)越高,傳統(tǒng)的淺層模型無(wú)法適應(yīng)這一需求,為了解決這一需求,深度學(xué)習(xí)模型應(yīng)運(yùn)而生。深度網(wǎng)絡(luò)模型起源于BP網(wǎng)絡(luò),所不同的是它通過(guò)逐層預(yù)訓(xùn)練和反向微調(diào)完成了參數(shù)的訓(xùn)練,從而避免了參數(shù)陷入局部最小值。本文嘗試探索深度神經(jīng)網(wǎng)絡(luò)在說(shuō)話人辨認(rèn)上的應(yīng)用,并且使用ReLU(Rectified Linear Unit)對(duì)其進(jìn)行改進(jìn)。
深度學(xué)習(xí)的基本模型[11]目前通常有3種:深度信念網(wǎng)絡(luò)(Deep Belief Network)、自動(dòng)編碼機(jī)(Auto-Encoder)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)。卷積神經(jīng)網(wǎng)絡(luò)主要應(yīng)用在圖像識(shí)別方面,因此本文主要研究前兩種模型在說(shuō)話人辨認(rèn)上的應(yīng)用。
1.1 深度信念網(wǎng)絡(luò)
深度信念網(wǎng)絡(luò)(DBN)[12]是由受限玻爾茲曼機(jī)(RBM)堆疊而成。一個(gè)RBM是由可視層v和隱含層h構(gòu)成的兩層結(jié)構(gòu)。假設(shè)它們的各個(gè)單元都服從伯努利或高斯分布。再加上連接權(quán)重w、兩層的偏置,我們便可以計(jì)算RMB的能量函數(shù)。它是關(guān)于可視層單元和隱藏層單元的聯(lián)合分布。在訓(xùn)練RBM時(shí)采用對(duì)比散度(CD)算法簡(jiǎn)化計(jì)算。將多個(gè)RBM堆疊就形成了DBN,下層的RBM的輸出作為輸入送給一層。逐層進(jìn)行訓(xùn)練,最后將網(wǎng)絡(luò)參數(shù)送給普通的神經(jīng)網(wǎng)絡(luò),使用BP算法進(jìn)行有監(jiān)督的微調(diào)[13]便完成了整個(gè)DBN的訓(xùn)練。
1.2 降噪自編碼
降噪自編碼(SDAE)是自動(dòng)編碼機(jī)的一種,整體結(jié)構(gòu)與MLP相同。只是訓(xùn)練的方式有所不同。當(dāng)我們對(duì)每一層網(wǎng)絡(luò)單獨(dú)訓(xùn)練的時(shí)候[14],往往發(fā)現(xiàn)新得到的特征對(duì)前一層的特征對(duì)于研究對(duì)象有更好的表達(dá)能力。假設(shè)某一層有N個(gè)神經(jīng)元,那么我們首先構(gòu)造一個(gè)N-N的兩層網(wǎng)絡(luò),使用上一層給予的輸出作為該層的輸入訓(xùn)練此兩層網(wǎng)絡(luò)直至收斂,并且將輸出作為輸入送給下一層。所有層網(wǎng)絡(luò)訓(xùn)練結(jié)束和前面描述的DBN一樣進(jìn)行BP微調(diào)。降噪編碼機(jī)的原理[15]是我們?nèi)藶榈脑诿恳粚拥妮斎肷想S機(jī)疊加少量的噪聲然后開(kāi)始訓(xùn)練,這樣可以防止數(shù)據(jù)的過(guò)擬合并且可以很好地抑制噪聲[16]。
1.3 整流線性單元
Hinton和Nair于2008年在RBM上使用整流線性單元[17]ReLU(Rectified Linear Unit)完成了分類問(wèn)題。因此我們?cè)O(shè)想使用ReLu作為深度網(wǎng)絡(luò)的神經(jīng)元代替?zhèn)鹘y(tǒng)的sigmoid或者tanh函數(shù)。ReLu的激活函數(shù)的數(shù)學(xué)表達(dá)式為:max(x,0),如圖1所示。
圖1 ReLU激活函數(shù)
從生物學(xué)角度來(lái)講,生物學(xué)家研究了突觸對(duì)于輸入信號(hào)的激發(fā)率,sigmoid類函數(shù)在0出具有穩(wěn)定的狀態(tài)并且具有對(duì)稱性,這都與生物學(xué)激活函數(shù)矛盾。而ReLu則滿足這兩個(gè)條件。再者,研究發(fā)現(xiàn)人類神經(jīng)元的編碼方式具有稀疏性,同一時(shí)間只有約1%~4%的神經(jīng)元被激活。但是傳統(tǒng)的沒(méi)有經(jīng)過(guò)預(yù)訓(xùn)練的BP網(wǎng)絡(luò)在不適用稀疏性限制條件的情況下使用sigmoid類函數(shù)不能滿足稀疏性條件。Bengio等證明ReLU在MNIST、CIFAR10、NORB等訓(xùn)練集上的表現(xiàn)是稀疏的,因此考慮采用ReLU對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn)。
ReLU存在的一個(gè)問(wèn)題是它的函數(shù)值是無(wú)界的,因此對(duì)于未經(jīng)預(yù)訓(xùn)練的網(wǎng)絡(luò)權(quán)重和偏置需要進(jìn)行不同程度的調(diào)整。更準(zhǔn)確地說(shuō),對(duì)于第i層網(wǎng)絡(luò),我們有一個(gè)系數(shù)αi,然后將權(quán)重和系數(shù)調(diào)整為:
Wi=Wi/αi
(1)
(2)
網(wǎng)絡(luò)的輸出修改為:
(3)
f(x,θ)=W′max(Wx+b,0)+b′
(4)
我們使用以下方案對(duì)其就行修正:
對(duì)編碼層的激活值進(jìn)行歸一化到0和1之間,然后在重構(gòu)層使用sigmoid函數(shù),使用交叉熵作為代價(jià)函數(shù):
(5)
使用DBN作為預(yù)訓(xùn)練模型時(shí),為了讓每一個(gè)神經(jīng)單元表達(dá)更多的信息,Hinton提出將伯努利單元看M個(gè)伯努利單元的重復(fù)疊加[18],這些單元使用相同的權(quán)值和偏置。我們使用加噪的ReLU(NReLU):max[0,x+N(0,v)]代替原先的二值單元。其中N(0,v)代表均值是0,方差是v的高斯分布。實(shí)驗(yàn)證明使用NReLU進(jìn)行預(yù)訓(xùn)練的RBM識(shí)別效果要好于普通的RBM。
2.1 實(shí)驗(yàn)語(yǔ)音數(shù)據(jù)庫(kù)
本文實(shí)驗(yàn)采用的數(shù)據(jù)庫(kù)是ELSDSR(English Language Speech Database for Speaker Recognition)。ELSDSR數(shù)據(jù)庫(kù)是一款專門用于說(shuō)話人識(shí)別的數(shù)據(jù)庫(kù)。它由丹麥科技大學(xué)的數(shù)學(xué)信息系師生共同錄制完成。該數(shù)據(jù)庫(kù)總共包含23名說(shuō)話人數(shù)據(jù),其中有21名丹麥人,1名愛(ài)爾蘭人和1名加拿大人。這些人員中有10名女性和13名男性。語(yǔ)音的采樣頻率為16 000Hz。經(jīng)過(guò)計(jì)算,總體訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的平均每人的時(shí)長(zhǎng)分別為82.9 s和17.6 s。本文的實(shí)驗(yàn)是基于該數(shù)據(jù)庫(kù)所有23人的語(yǔ)音完成的,特征參數(shù)取2階差分MFCC,幀長(zhǎng)取16 ms。
2.2 參數(shù)設(shè)置與結(jié)果分析
首先本文研究了網(wǎng)絡(luò)模型對(duì)深度網(wǎng)絡(luò)識(shí)別效果的影響,取每個(gè)說(shuō)話人10 s語(yǔ)音作為訓(xùn)練數(shù)據(jù),測(cè)試時(shí)間為2 s。網(wǎng)絡(luò)結(jié)構(gòu)分別使用1、2、3層隱含層。神經(jīng)元數(shù)目分別使用20、50、100、200、400。為了方便討論我們?cè)O(shè)置每層的神經(jīng)元數(shù)目相同。對(duì)于初始參數(shù)的設(shè)置,下列參數(shù)的選擇將從這些范圍內(nèi)手動(dòng)選擇以獲取最優(yōu)識(shí)別率:BP學(xué)習(xí)率(0.1,0.05,0.02,0.01,0.005),預(yù)訓(xùn)練學(xué)習(xí)率(0.01,0.005,0.002,0.001),加噪系數(shù)(0,0.1,0.2,0.4),稀疏系數(shù)(0.02,0.05,0.1,0.2)。圖2顯示了3種模型不同結(jié)構(gòu)下的最優(yōu)錯(cuò)誤識(shí)別率。
圖2 錯(cuò)誤率隨網(wǎng)絡(luò)規(guī)模變化圖
觀察圖2,當(dāng)隱含層數(shù)較少或者神經(jīng)元個(gè)數(shù)較少時(shí)沒(méi)有經(jīng)過(guò)預(yù)訓(xùn)練的BP網(wǎng)絡(luò)性能較優(yōu),當(dāng)只有1層隱含層時(shí),神經(jīng)元個(gè)數(shù)達(dá)到200時(shí)SDAE的錯(cuò)誤率才和BP的相當(dāng),而當(dāng)隱含層數(shù)為2層和3層時(shí),神經(jīng)元個(gè)數(shù)達(dá)到100和50時(shí)SDAE的性能就將接近并超過(guò)BP。DBN也同樣,可以發(fā)現(xiàn)神經(jīng)元數(shù)目較少的情況下SDAE的性能與DBN相比較優(yōu),神經(jīng)元數(shù)目較多的情況下則相反??梢钥吹?過(guò)少的隱含層數(shù)及隱含節(jié)點(diǎn)數(shù)會(huì)降低深度模型的性能。原因可以這樣解釋,預(yù)訓(xùn)練模型的作用是提取輸入特征中的核心特征,由于稀疏性條件的限制,假設(shè)神經(jīng)元個(gè)數(shù)過(guò)少,對(duì)于一些輸入樣本的輸入,只有少量的神經(jīng)元被激活,而這些特征無(wú)法代表原始的輸入,因此丟失了一些信息量,造成了性能的下降。雖然網(wǎng)絡(luò)規(guī)模越大深度模型的性能越好,但同時(shí)訓(xùn)練時(shí)間也加長(zhǎng)了。
ReLU激活函數(shù)的導(dǎo)數(shù)為1,極大地簡(jiǎn)化了反向傳播算法的計(jì)算,因此可以有效提升模型的訓(xùn)練速度。
下面我們分別對(duì)使用sigmoid、ReLU、softplus的BP、SDAE、DBN模型進(jìn)行了說(shuō)話人識(shí)別實(shí)驗(yàn)。BP模型即未經(jīng)過(guò)預(yù)訓(xùn)練的深度網(wǎng)絡(luò)。同樣,對(duì)于每個(gè)說(shuō)話人使用10 s的訓(xùn)練數(shù)據(jù),測(cè)試時(shí)間為2 s。每一種模型都使用3層隱含層,每層有100個(gè)神經(jīng)元。對(duì)于SDAE,sigmoid作為激活函數(shù)時(shí)我們使用交叉熵作為重構(gòu)誤差,而ReLU和softplus作為激活函數(shù)時(shí)用平方誤差作為重構(gòu)誤差。對(duì)于預(yù)訓(xùn)練深度模型加噪系數(shù)取0.05。對(duì)于所有的學(xué)習(xí)率,我們?cè)?1,0.1,0.01,0.001)中間選取最優(yōu)。迭代終止條件設(shè)為誤差小于0.001。并且我們對(duì)目標(biāo)函數(shù)添加了懲罰系數(shù)為0.01的L2懲罰因子防止參數(shù)過(guò)大。下表分別顯示了3種函數(shù)在不同模型下的識(shí)別效果以及訓(xùn)練時(shí)間。
表1 不同激活函數(shù)與深度模型結(jié)合的誤識(shí)率
表2 不同激活函數(shù)與深度模型結(jié)合的訓(xùn)練時(shí)間
分析上表可以得出以下兩點(diǎn)結(jié)論:
(1)是否進(jìn)行預(yù)訓(xùn)練對(duì)ReLU性能的發(fā)揮取重要的作用。我們發(fā)現(xiàn)在未經(jīng)預(yù)訓(xùn)練的情況下,ReLU的誤識(shí)率為12.03%,相比于sigmoid函數(shù)下降了14個(gè)百分點(diǎn),性能甚至超過(guò)預(yù)訓(xùn)練的模型,而在經(jīng)過(guò)預(yù)訓(xùn)練的情況下ReLU的識(shí)別效果并未有明顯的改善,DBN使用ReLU誤識(shí)率下降比SDAE多,從某種意義上來(lái)說(shuō)RBM與ReLU更匹配。因此是否適當(dāng)調(diào)整預(yù)訓(xùn)練模型以改善ReLU的識(shí)別率值得繼續(xù)研究。
(2)從訓(xùn)練時(shí)間上看,3種函數(shù)對(duì)應(yīng)的訓(xùn)練時(shí)間分別為ReLU 深度神經(jīng)網(wǎng)絡(luò)模型被大量應(yīng)用于計(jì)算機(jī)視覺(jué)的研究,本文探索性地將其應(yīng)用于說(shuō)話人辨認(rèn)?;贓LSDSR數(shù)據(jù)庫(kù)進(jìn)行了全面的實(shí)驗(yàn)分析,證明了當(dāng)隱層節(jié)點(diǎn)數(shù)超過(guò)一定數(shù)量時(shí),深度神經(jīng)網(wǎng)絡(luò)的識(shí)別效果是優(yōu)于普通的BP網(wǎng)絡(luò)的,并且隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大其性能越好,過(guò)少的隱含層和過(guò)少的節(jié)點(diǎn)數(shù)會(huì)影響深度模型的性能。但是注意到隨著深度網(wǎng)絡(luò)模型的擴(kuò)大,其訓(xùn)練時(shí)間明顯增長(zhǎng),為了解決這一問(wèn)題,本文提出將ReLU應(yīng)用于說(shuō)話人辨認(rèn)的深度模型,分別將其應(yīng)用于未經(jīng)預(yù)訓(xùn)練和經(jīng)過(guò)預(yù)訓(xùn)練的深度網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果表明改進(jìn)后的深度模型平均訓(xùn)練時(shí)間減少了35%,平均誤識(shí)率降低了8.3%,并且網(wǎng)絡(luò)的平均稀疏度有了明顯提升。但是ReLU對(duì)經(jīng)過(guò)預(yù)訓(xùn)練的深度模型的提升效果并不明顯,平均誤識(shí)率僅僅降低了5.5%,遠(yuǎn)低于其對(duì)未經(jīng)預(yù)訓(xùn)練的網(wǎng)絡(luò)性能的提升,因此未來(lái)的研究工作可以著眼于改進(jìn)深度模型的結(jié)構(gòu)和訓(xùn)練算法以和ReLU有效結(jié)合。 [1] Abu El-Yazeed M F,El Gamal M A,El Ayadi M M H. On the Determination of Optimal Model order for GMM-Based Text-Independent Speaker Identification[J]. Journal on Applied Signal Processing,2007(8):1078-1087. [2] Formisano E,de Martino F,Bonte M,et al. Who’s Saying What?Brain-Based Decoding of Human Voice and Speech[J]. Science,2008,322:970-973. [3] Tagashira S,Ariki Y. Speaker Recognition and Speaker Normalization by Projection to Speaker Subspace[J]. IEICE,Technical Report,1995,SP95-28:25-32. [4] Liu C S,Wang H C. Speaker Verification Using Normalization Log-Likelihood Score[J]. IEEE Trans Speech and Audio Precessing,1980,4:56-60. [5] Douglas A Reynolds. Speaker Identification and Verification Using Gaussian Mixture Speaker Models[J]. Speech Communication,1995,17:91-108. [6] Matsui TFurui S. Concatenated Phoneme Models for Text Variable Speaker Recognition[C]//Proc IEEEInter Conf on Acoustics,Speech,and Signal Processing(ICASSP’93)1993:391-394. [7] Markov K,Nakagawa S. Text-Independent Speaker Recognition System Using Frame Level Likelihood Processing[J]. Technical Report of IEICE,1996,SP96-17:37-44. [8] Dehak N,Dehak R,Kenny P,et al. Comparison between Factor Analysis and GMM Support Vector Machines for Speaker Verification[C]//The Speaker and Language Recognition Workshop(Odyssey 2008). Stellenbosch,South Africa:ISCA Archive,January 2008:21-25. [9] Campbell W M,Sturim D E,Reynolds D A,et al. SVM Based Speaker Verificationusing a GMM Supervector Kernel and NAP Variability Compensation[C]//IEEEInternational Conference on Acoustics,Speech and Signal Processing. Toulouse:IEEE,2006,1:97-100. [10] Ferras M,Shinoda K,Furui S. Structural MAP Adaptation in GMM Super Vector Based Speaker Recognition[C]//IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP). Prague:IEEE,2011:5432-5435. [11] Bengio Y. Learning Deep Architectures for AI[J]. Machine Learning,2009,2(1):1-127. [12] Safari P,Ghahabi O,Hernando J. Feature Classification By Means of Deep Belief Networks for Speaker Recognition[J]. Eusipco,2015. [13] Kenny P,Gupta V,Stafylakis T,et al. Deep Neural Networks for Extracting Baum-Welch Statistics for Speaker Recognition. Odessy,2014. [14] Erhan D,Bengio Y,Courville A,et al. Why Does Unsupervised Pre-Training Help Deep Learning[J]. Journal of Machine Learning Research,2010,11(3):625-660. [15] Vincent P,Larochelle H,Bengio Y,et al. Extracting and Composing Robust Features with Denoising Autoencoders[C]//Machine Learning,Twenty-Fifth International Conference,2008:1096-1103. [16] Jiang Xiaojuan,Zhang Yinghua,Zhang Wensheng,et al. A Novel Sparse Autoencoder for Deep Unsupervised Learning[C]//Sixth International Conference on Advanced Computational Intelligence,2013:256-261. [17] Nair V,Hinton G E. Rectified Linear Units Improve Restricted Boltzmann Machines. Proc Icml,2010(1):807-814. [18] Jaitly N,Hinton G E. Learning a Better Respresentation of Speech Soundwaves Using Restricted Boltzmann Machines. ICASSP,2011:5884-5887. ResearchonSpeakerIdentificationBasedonImprovedDeepNeuralNetwork* ZHAOYan1*,LüLiang3,ZHAOLi3 (1.School of Electric Power Engineering,Nanjing Institute of Technology,Nanjing 211167 China;2.School of Information Science and Engineering,Southeast university,Nanjing 210096,China) The technology of speaker identification will be used in many areas in the future. Firstly,a research is made on the use of two basic Deep Neural Network models which refer to Stacked Denoising-Autoencoders and Deep Belief Network on speaker identification. By pre-training layer-wisely without labels and back fine-tuning with labels,Deep Neural Network has overcome the shortcoming that is easy to fall into local minimum caused by back propagation. The experiments proves that Deep Network Model performs better than normal BP Network when the amount of neurons is bigger than certain number and its performance grows with the scale of Network enlarges. Considering the training time of large Deep Model is too long,this text proposes using Rectifier Linear Unit to replace traditional sigmoid function to improve deep model on speaker identification. The results of experiment show that the training time and error rate of improved deep model has decreased by 35% and 8.3% respectively. speakeridentification;stacked denoising-autoencoders;deep belief network;rectifier neural network 10.3969/j.issn.1005-9490.2017.05.034 項(xiàng)目來(lái)源:國(guó)家自然科學(xué)基金項(xiàng)目(61301219);南京工程學(xué)院校級(jí)項(xiàng)目(YKJ201107);2014年青藍(lán)工程項(xiàng)目 2016-11-01修改日期2016-11-25 TN912.3;TP317.5 A 1005-9490(2017)05-1229-05 趙艷(1978-),女,陜西寶雞人,2011年?yáng)|南大學(xué)信息科學(xué)與工程學(xué)院博士畢業(yè),獲工學(xué)博士學(xué)位,現(xiàn)為南京工程學(xué)院講師,研究方向?yàn)檎Z(yǔ)音信號(hào)處理,lvzhuweng2001@163.com。3 結(jié)語(yǔ)