陳亞峰,郭 武
(中國(guó)科學(xué)技術(shù)大學(xué)語音及語言信息處理國(guó)家工程實(shí)驗(yàn)室,合肥,230027)
說話人確認(rèn)(Speaker verification, SV)是判斷一段測(cè)試語音與其所聲明身份是否一致的過程。SV 又分為文本相關(guān)的SV(Text?dependent SV)和文本無關(guān)的SV(Text?independent SV)。從目前的SV 技術(shù)水平來看,相對(duì)于文本無關(guān)的SV 的低準(zhǔn)確率,文本相關(guān)的SV 將內(nèi)容與聲紋特征結(jié)合起來,有效地提高了識(shí)別準(zhǔn)確率,從而在商業(yè)應(yīng)用中獲得了廣泛的應(yīng)用[1]。
近幾年來,基于因子分析的全變量(Total variability, TV)系統(tǒng)的i?vector[2]算法一直是文本無關(guān)的SV 中主流的方法。首先通過將一段語料映射到一個(gè)低維的子空間中,得到表征該說話人的特征矢量i?vector,再進(jìn)行低維空間的信道補(bǔ)償算法和得分判決算法以獲得更優(yōu)的SV 性能。該方法在大數(shù)據(jù)集上訓(xùn)練和測(cè)試取得了不錯(cuò)效果,同樣也被用于文本相關(guān)的SV 中[3]。
文本相關(guān)的SV 一般將語音內(nèi)容限制為:(1)固定短語;(2)一組預(yù)定義短語;(3)特定的隨機(jī)內(nèi)容組合。典型的如數(shù)字串,在測(cè)試中由系統(tǒng)生成需要判斷的語音內(nèi)容并進(jìn)行聲紋確認(rèn)[4]。經(jīng)典的文本相關(guān)SV應(yīng)用中,注冊(cè)和驗(yàn)證通常都使用一個(gè)固定短語或者一組預(yù)定義短語,如果文本信息被泄露,則安全性會(huì)大大降低。在文獻(xiàn)[5]中,針對(duì)隨機(jī)內(nèi)容組合的這種應(yīng)用,提出基于音素的i?vector 系統(tǒng),其對(duì)語料中的22 個(gè)音素分別建模,提取每個(gè)音素的i?vector,再結(jié)合后端算法判決得分。在文獻(xiàn)[6]中,在對(duì)10 數(shù)字分別建模的i?vector系統(tǒng)的基礎(chǔ)上,提出了一種新的后端信道補(bǔ)償算法,進(jìn)一步提高了識(shí)別的準(zhǔn)確率。
隨著深度學(xué)習(xí)的在圖像、自然語言處理以及語音識(shí)別[7]等領(lǐng)域上取得優(yōu)異的效果,其強(qiáng)大的特征提取能力可以幫助聲紋系統(tǒng)獲得更具有說話人區(qū)分性的信息。因此,基于深度神經(jīng)網(wǎng)絡(luò)的SV 方法被廣泛使用,最主流的算法是提取出表征說話人特征矢量x?vector[8],再結(jié)合后端處理算法進(jìn)行信道補(bǔ)償和得分判決。但針對(duì)文本相關(guān)的SV 任務(wù),存在因訓(xùn)練數(shù)據(jù)過少導(dǎo)致深度神經(jīng)網(wǎng)絡(luò)的過擬合問題,提取出來的x?vector區(qū)分性不夠。本文中,采用不同的網(wǎng)絡(luò)結(jié)構(gòu)以及網(wǎng)絡(luò)預(yù)訓(xùn)練等策略解決該問題。
本文針對(duì)文本內(nèi)容為隨機(jī)數(shù)字序列的SV 任務(wù)提出并構(gòu)建了一個(gè)基于內(nèi)容建模的x?vector 系統(tǒng)。首先,利用語音識(shí)別模型將語料分割成不同的內(nèi)容(10 個(gè)數(shù)字),然后分別針對(duì)每個(gè)數(shù)字微調(diào)一個(gè)預(yù)訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò),得到不同數(shù)字的特征提取器,使用這些特征提取器提取對(duì)應(yīng)內(nèi)容(數(shù)字)的x?vector。后端處理算法也分別針對(duì)不同的內(nèi)容(數(shù)字)單獨(dú)訓(xùn)練,最后將測(cè)試語料中各個(gè)內(nèi)容(數(shù)字)的得分求和的平均計(jì)算最終得分。實(shí)驗(yàn)在RSR2015 數(shù)據(jù)庫(kù)上進(jìn)行,由于Part Ⅲ語料內(nèi)容是數(shù)字串,因此后面的描述中用“數(shù)字”來代表內(nèi)容。若語料內(nèi)容不是數(shù)字,本文提出的方法依舊適用:先語音識(shí)別文本內(nèi)容,再分詞建模提取說話人特征,最后運(yùn)用后端算法計(jì)算最終得分。從結(jié)果上來看,提出的算法可以明顯提升系統(tǒng)性能。
x?vector 系統(tǒng)所使用的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)主要分為幀處理層(Frame?level layers)、池化層(Pooling layer)、段處理層(Segment?level layer)3 部分[9],如圖1 所示。
(1)幀處理層
傳統(tǒng)的x?vector 系統(tǒng)幀處理層由5 層時(shí)延神經(jīng)網(wǎng)絡(luò)(Time delay neural network, TDNN)[10]組成,以幀為單位對(duì)低層輸入特征進(jìn)行非線性映射獲得幀級(jí)別的表示。 對(duì)于一段輸入語料X ={ x1,x2,…,xT} (T 為幀數(shù)),那么每一幀處理層輸出為
式 中 ,fti為 第i 層 第t 幀 輸 出 矢 量 ,xtc為 第t 幀 附 近的輸入特征拼接起來的矢量,來學(xué)習(xí)第t 幀附近的信息,w 和b 為權(quán)重矩陣和偏置矢量,f 為非線性激活函數(shù),這里取ReLU 函數(shù)。
圖1 深度神經(jīng)網(wǎng)絡(luò)示意圖Fig.1 Diagram of the deep neural network
(2)池化層
圖1 網(wǎng)絡(luò)中的池化層為統(tǒng)計(jì)池化層(Statistics pooling layer),是由幀處理層的輸出分別計(jì)算均值和標(biāo)準(zhǔn)差拼接而成,以此得到一段語料的統(tǒng)計(jì)特性作為表示。統(tǒng)計(jì)池化層的輸出為
式中,s 表示統(tǒng)計(jì)池化層輸出矢量,ft表示幀處理層的第t 幀輸出矢量,mean 表示對(duì)所有幀求均值,std 表示對(duì)所有幀求標(biāo)準(zhǔn)差。
(3)段處理層
段處理層用統(tǒng)計(jì)池化層的輸出s 作為輸入,通過若干層前向DNN 網(wǎng)絡(luò)提取段級(jí)別的矢量來表征說話人。x?vector 中采用2 層DNN,表示為
式中σl為段處理層第l 層輸出。
段級(jí)別的矢量經(jīng)過段處理層的進(jìn)一步處理,最后通過Softmax 分類器進(jìn)行分類,來預(yù)測(cè)目標(biāo)說話人的類別以進(jìn)行區(qū)分性訓(xùn)練。訓(xùn)練采用交叉熵?fù)p失函數(shù)[11]
式中,第n 段語料如果屬于第k 個(gè)說話人,則dnk為1,否則為0;P ( spkr|xn1:T)為Softmax 分類器對(duì)給定第n段語料特征的預(yù)測(cè)輸出。神經(jīng)網(wǎng)絡(luò)利用批量BP 算法進(jìn)行訓(xùn)練,更新網(wǎng)絡(luò)參數(shù)。
(4)x?vector 提取
在段處理層中,第1,2 層的輸出都可以用來作為一段語料的低維矢量表示,一般采用第1 層的線性部分輸出(Embedding?a)作為最終的說話人矢量表示,即x?vector,其優(yōu)異的性能在近些年獲得了廣泛應(yīng)用。
在獲得語音的低維矢量表示之后,采用當(dāng)前主流的后端判別概率線性判別式分析(Probabilities lin?ear discriminant analysis, PLDA)進(jìn)行SV。給定一條語料u,PLDA 模型可以寫成
式中,μ 是所有數(shù)據(jù)x?vector 的均值,V 是載荷矩陣,它的每一列是說話人子空間的基。y ( u )是ω( u )映射在說話人子空間的隱變量,ε( u )是殘余噪聲項(xiàng)。高斯PLDA 模型是建立在觀測(cè)值服從高斯分布這一基礎(chǔ)上建立的。但是在實(shí)際應(yīng)用中,x?vector 分布是不滿足高斯條件的,為了提高PLDA 算法效果,需要對(duì)x?vector 做如下均值方差歸一化[12]
式中,Σ 是所有訓(xùn)練數(shù)據(jù)x?vector 協(xié)方差矩陣。在測(cè)試階段,利用PLDA 模型計(jì)算兩端語料相似度得分。假設(shè)H1表示兩段語料來自于同一個(gè)說話人,假設(shè)H0表示2 段語料來自于不同的說話人,2 段語料對(duì)應(yīng)的x?vector 分別為ω( u1)和ω( u2),那么最終的似然度得分計(jì)算如下
在文本相關(guān)的SV 中,內(nèi)容是很重要的一個(gè)區(qū)分性信息。前面所述的x?vector 系統(tǒng)都是對(duì)一段語音進(jìn)行統(tǒng)一的矢量提取,沒有考慮內(nèi)容對(duì)x?vector 的影響。本文針對(duì)這種情況采用不同的數(shù)字分別訓(xùn)練殘差神經(jīng)網(wǎng)絡(luò)并分別提取x?vector?;趦?nèi)容的x?vector 系統(tǒng)包含訓(xùn)練階段和測(cè)試階段,圖2 為說話人識(shí)別流程圖。在說話人模型注冊(cè)階段,首先進(jìn)行數(shù)據(jù)預(yù)處理:提取訓(xùn)練語料的30 維梅爾頻率倒譜系數(shù)(Mel frequency cepstral coefficient,MFCC)特征,并利用端點(diǎn)檢測(cè)算法除去靜音幀;再進(jìn)行語料切分:利用語音識(shí)別模型將每條語料切割成若干數(shù)字,由于聲音信噪比高,采用高斯混合模型與隱馬爾科夫模型(Gaussian mixture models and hidden markov model,GMM?HMM)模型已經(jīng)能夠獲得很好的語音識(shí)別準(zhǔn)確率;利用訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)模型分別提取每個(gè)數(shù)字的x?vector,完成模型的注冊(cè)。在測(cè)試階段,數(shù)據(jù)預(yù)處理與訓(xùn)練階段相同,提取注冊(cè)語料和測(cè)試語料中各數(shù)字相應(yīng)的x?vector,使用線性判別式分析(Linear discriminant analysis,LDA)、PLDA 后端信道補(bǔ)償算法獲取各數(shù)字的得分,最后將測(cè)試語料各數(shù)字得分求和平均計(jì)算最終得分。
圖2 基于內(nèi)容的x-vector 系統(tǒng)流程圖Fig.2 Block diagram of digit-dependent x-vector system
圖2 中提取x?vector 神經(jīng)網(wǎng)絡(luò)首先使用大量數(shù)據(jù)預(yù)訓(xùn)練得到一個(gè)初始網(wǎng)絡(luò),然后用訓(xùn)練集的每個(gè)不同的數(shù)字來訓(xùn)練得到10 個(gè)與數(shù)字相關(guān)的神經(jīng)網(wǎng)絡(luò)。由于x?vector 是與數(shù)字相關(guān)的,因此也用訓(xùn)練集的不同數(shù)字的x?vector 來單獨(dú)訓(xùn)練LDA、PLDA 模型。
在訓(xùn)練階段,本文中采用RSR2015 Part Ⅲ中的bkg+dev 中Part Ⅲ數(shù)據(jù)訓(xùn)練GMM?HMM 模型,采用單音素聲學(xué)模型,每個(gè)音素采用三狀態(tài)建模,用得到的語音識(shí)別模型對(duì)語音做識(shí)別后,并對(duì)每個(gè)數(shù)字做強(qiáng)制對(duì)齊可以得到其起始和終止時(shí)間,并以此作為后續(xù)說話人訓(xùn)練和測(cè)試實(shí)驗(yàn)所用。
傳統(tǒng)的x?vector 系統(tǒng)在幀處理層采用的是TDNN 結(jié)構(gòu),這種結(jié)構(gòu)在數(shù)據(jù)量較大時(shí),性能優(yōu)異,但聲紋表征的提取能力依舊不足。本文采用改進(jìn)的34 層深度殘差網(wǎng)絡(luò)(ResNet?34)[12]代替TDNN,如圖3所示。與標(biāo)準(zhǔn)ResNet?34 相比,除去第1 個(gè)卷積層后的池化層,并修改各個(gè)卷積層中各卷積核大小,具體參數(shù)見圖3。其以幀為單位對(duì)低層輸入特征進(jìn)行非線性映射獲得幀級(jí)別的表示。與普通DNN 不同的是,ResNet?34 引入殘差學(xué)習(xí)模塊[13],解決了隨著網(wǎng)絡(luò)層數(shù)的加深,準(zhǔn)確率不升反降的問題。池化層為統(tǒng)計(jì)池化層,段處理層由2 個(gè)具有512 節(jié)點(diǎn)數(shù)的fc 層和softmax 層組成,輸出節(jié)點(diǎn)為對(duì)應(yīng)的目標(biāo)說話人。
傳統(tǒng)的x?vector 系統(tǒng)是訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),既然采用每個(gè)字來分別建模,最好的方式是每個(gè)不同的字都建立一個(gè)神經(jīng)網(wǎng)絡(luò)分別提取x?vector,這樣具有更高的區(qū)分性。不可回避的是,采用每個(gè)字建立一個(gè)x?vector 的提取網(wǎng)絡(luò)面臨著數(shù)據(jù)不足的問題。為解決訓(xùn)練數(shù)據(jù)過少導(dǎo)致深度神經(jīng)網(wǎng)絡(luò)的過擬合問題,采用網(wǎng)絡(luò)預(yù)訓(xùn)練策略。首先用大量數(shù)據(jù)訓(xùn)練一個(gè)相對(duì)穩(wěn)健的模型,本文中使用Voxceleb 中的開發(fā)集[14]和Voxceleb2 中的開發(fā)集[15]訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò),然后將輸出節(jié)點(diǎn)替換,固定除最后一個(gè)隱層外的所有底層參數(shù),然后分別用各個(gè)字的特征語料訓(xùn)練最后一個(gè)隱層參數(shù),待網(wǎng)絡(luò)收斂后,只固定BN(Batch normalization)層[16]參數(shù),重新訓(xùn)練網(wǎng)絡(luò)至收斂。
當(dāng)10 個(gè)數(shù)字的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練完畢,將注冊(cè)語料和測(cè)試語料中的各數(shù)字特征作為網(wǎng)絡(luò)輸入來提取對(duì)應(yīng)數(shù)字的x?vector,再分別進(jìn)行信道補(bǔ)償和得分判決。
當(dāng)基于字的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練完畢,將注冊(cè)語料和測(cè)試語料中的各個(gè)字特征作為網(wǎng)絡(luò)輸入來提取對(duì)應(yīng)數(shù)字的x?vector。在得到每個(gè)數(shù)字的表征說話人的矢量x?vector 之后,采用基于字的PLDA 模型。
給定一條語料x,基于字的PLDA 模型如下
與式(5)不同的是,上式所有變量都是針對(duì)特定數(shù)字d,{μd,Vd,Σd}這些參數(shù)都是由其對(duì)應(yīng)數(shù)字的歸一化的x?vector 訓(xùn)練,歸一化過程如式(9)所示
圖3 深度殘差網(wǎng)絡(luò)Fig.3 A deep residual network
式中,μd和Σd是所有關(guān)于數(shù)字d的x?vector 的均值和協(xié)方差矩陣。
然后,對(duì)注冊(cè)語料和測(cè)試語料中的各個(gè)數(shù)字進(jìn)行得分判決,如式(10)所示
式中,假設(shè)H1表示對(duì)于數(shù)字d,ωd(u1),ωd(u2)是來自于相同的說話人,假設(shè)H0表示對(duì)于數(shù)字d,它們來自不同的說話人。最后,將不同數(shù)字的得分進(jìn)行合并,統(tǒng)計(jì)出每條語料的判決得分如下
式中,Dx表示測(cè)試語料中含有的數(shù)字集合,|Dx|表示測(cè)試語料中包含數(shù)字的個(gè)數(shù),sd(utest,uenroll)的計(jì)算如式(10)所示。式(11)是不同數(shù)字得分求和平均的過程。
本次實(shí)驗(yàn)是RSR2015 數(shù)據(jù)庫(kù)上進(jìn)行的,RSR2015 是一個(gè)針對(duì)文本相關(guān)的SV 任務(wù)的英文數(shù)據(jù)庫(kù),其中包含300 個(gè)說話人(男157 人,女143 人)。按照不同說話人進(jìn)行分類,分為:background(bkg),development(dev)和evaluation(eval)[17],具 體 如 表1 所示。 按照語料內(nèi)容分為PartⅠ、PartⅡ、PartⅢ這3 部分。PartⅠ語料是固定短語,PartⅡ語料是家用電器控制命令,Part Ⅲ語料是隨機(jī)數(shù)字串語音。本文在Part Ⅲ進(jìn)行SV 實(shí)驗(yàn)。Part Ⅲ語料中,10 數(shù)字串平均時(shí)長(zhǎng)5.19 s,5 數(shù)字串平均時(shí)長(zhǎng)3.06 s,除去靜音幀后,其有效時(shí)長(zhǎng)分別為2.07,1.09 s。
表1 RSR2015 數(shù)據(jù)庫(kù)分類Table 1 Partitioning of RSR2015 人
本文采用等錯(cuò)誤率(Equal error rate,EER)和最小錯(cuò)誤代價(jià)函數(shù)(Minimal detection cost function,MinDCF(p?target)=0.01)作為評(píng)價(jià)指標(biāo)[18]。
在RSR2015 數(shù)據(jù)集上分性別訓(xùn)練和測(cè)試,注冊(cè)和測(cè)試數(shù)據(jù)全部來自Eval,10 數(shù)字串的語料注冊(cè),5數(shù)字串的語料測(cè)試[5]。構(gòu)建了914 688 個(gè)測(cè)試:其中男性有526 167 個(gè),目標(biāo)說話人的個(gè)數(shù)有9 231 個(gè),非目標(biāo)說話人的個(gè)數(shù)有516 936 個(gè),女性有388 521 個(gè),目標(biāo)說話人有7 929 個(gè),非目標(biāo)說話人有380 592個(gè)。除本文提出的算法之外,另外還采用了7 個(gè)主流的系統(tǒng)進(jìn)行對(duì)比。
GMM i?vector 系統(tǒng):UBM 模型分性別訓(xùn)練,UBM 模型的訓(xùn)練數(shù)據(jù)分別是男性說話人和女性說話人的bkg+dev 數(shù)據(jù)。UBM 高斯數(shù)為1 024,對(duì)應(yīng)i?vector 系統(tǒng)的T 矩陣訓(xùn)練數(shù)據(jù)同UBM 模型,i?vector取400 維。后端LDA 算法進(jìn)行信道補(bǔ)償,將維度降到128,再利用PLDA 算法得分判決。LDA、PLDA模型訓(xùn)練數(shù)據(jù)為bkg+dev 中Part Ⅲ語音。
基于內(nèi)容的i?vector 系統(tǒng):這是文獻(xiàn)[8]提出的一種算法。GMM?HMM 模型也是分性別訓(xùn)練,訓(xùn)練數(shù)據(jù)分別是男性說話人和女性說話人的bkg+dev 中Part Ⅲ數(shù)據(jù)。UBM 按不同數(shù)字建模,訓(xùn)練數(shù)據(jù)與GMM?HMM 模型相同,UBM 高斯數(shù)為16,對(duì)應(yīng)i?vector 系統(tǒng)的T 矩陣訓(xùn)練數(shù)據(jù)同UBM 模型,i?vector取100 維,LDA 降維至60,PLDA 得分判決。LDA、PLDA 模型訓(xùn)練數(shù)據(jù)與GMM i?vector 系統(tǒng)相同。
RSR?TN?xvector 系統(tǒng):5 層TDNN 作為幀處理層,各層節(jié)點(diǎn)數(shù)分別為512,512,512,512,1 536。池化層為統(tǒng)計(jì)池化層;段處理層由2 個(gè)具有512 節(jié)點(diǎn)數(shù)的fc 層和softmax 層組成。整個(gè)神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)是RSR2015 Part Ⅲ中bkg+dev 中所有語音數(shù)據(jù)。
RSR?RN?xvector 系統(tǒng):改進(jìn)的ResNet?34 網(wǎng)絡(luò)作為幀處理層,如圖3 所示;其他所有配置與TN?xvector 相同。
TN?xvector 系統(tǒng):網(wǎng)絡(luò)結(jié)構(gòu)和RSR?TN?xvector 系統(tǒng)完全相同。網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)是Voxceleb 中的開發(fā)集和Voxceleb2 中的開發(fā)集,x?vector 取512 維,LDA、PLDA 配置和GMM i?vector 系統(tǒng)相同。
基于內(nèi)容的TN?xvector 系統(tǒng):網(wǎng)絡(luò)結(jié)構(gòu)與TN?xvector 系統(tǒng)相同,深度神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練數(shù)據(jù)與TN?xvector 系統(tǒng)訓(xùn)練數(shù)據(jù)相同。當(dāng)網(wǎng)絡(luò)預(yù)訓(xùn)練完成后,將RSR2015 Part Ⅲ中bkg+dev 中Part Ⅲ數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)重新對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)。LDA、PLDA 配置和GMM i?vector 系統(tǒng)相同。
RN?xvector 系統(tǒng):改進(jìn)的ResNet?34 網(wǎng)絡(luò)作為幀處理層,如圖3 所示;其他所有配置與TN?xvector相同。
基于內(nèi)容的RN?xvector 系統(tǒng):網(wǎng)絡(luò)結(jié)構(gòu)與RN?xvector 系統(tǒng)相同,其他所有配置與基于內(nèi)容的TN?xvector 系統(tǒng)相同。
表2 列出了6 個(gè)系統(tǒng)在測(cè)試集上的實(shí)驗(yàn)結(jié)果。
由RSR?TN?xvector 和RSR?RN?xvector 系統(tǒng)在男女測(cè)試集上性能可知,僅使用RSR2015 數(shù)據(jù)庫(kù)中的數(shù)據(jù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),說話人識(shí)別性能會(huì)大幅降低。因網(wǎng)絡(luò)參數(shù)過多,而訓(xùn)練數(shù)據(jù)不足導(dǎo)致出現(xiàn)過擬合,參數(shù)量越大,過擬合現(xiàn)象越嚴(yán)重,識(shí)別率越低。故本文采用預(yù)訓(xùn)練等策略提高識(shí)別性能。
傳統(tǒng)的x?vector 系統(tǒng)幀處理層為5 層TDNN 構(gòu)成,但特征提取能力與ResNet?34 相比依舊不足。RN?xvector 系統(tǒng)相較于TN?xvector 系統(tǒng)在男性和女性測(cè)試集上EER 分別相對(duì)提升31.79%、22.31%,MinDCF 相對(duì)提升15.57%、26.81%。表明網(wǎng)絡(luò)層次的加深,會(huì)進(jìn)一步增強(qiáng)聲紋特征的提取能力,說明幀處理層的替換對(duì)于提取聲學(xué)特征中的說話人信息有一定的作用。
表2 Part Ⅲ測(cè)試集實(shí)驗(yàn)結(jié)果Table 2 Experimental results on test set of Part Ⅲ
文本內(nèi)容作為輔助信息的應(yīng)用在文本相關(guān)的SV 實(shí)驗(yàn)中也取得了一定的效果?;趦?nèi)容的i?vector系統(tǒng)相較于GMM i?vector 系統(tǒng)在男性和女性測(cè)試集上EER 分布分別提升24.09%、42.95%,MinDCF相對(duì)提升33.24%、46.25%?;趦?nèi)容的TN?xvector 系統(tǒng)相較于TN?xvector 系統(tǒng)在男性和女性測(cè)試集上EER 分布分別提升21.66%、20.67%,MinDCF 相對(duì)提升26.53%、34.3%。基于內(nèi)容的RN?xvector 系統(tǒng)相較于RN?xvector 系統(tǒng)在男性和女性測(cè)試集上EER 分別提升15.34%、19.7%,MinDCF 相對(duì)提升17.08%、24.66%。充分驗(yàn)證了內(nèi)容建模的有效性,體現(xiàn)了基于內(nèi)容的說話人信息提取的魯棒性。
RN?xvector 系統(tǒng)是將x?vector 系統(tǒng)應(yīng)用到文本相關(guān)的SV 任務(wù)中,并且使用性能更優(yōu)的ResNet?34替換傳統(tǒng)的TDNN 網(wǎng)絡(luò),并針對(duì)文本內(nèi)容分別建模。相較于其他7 個(gè)主流系統(tǒng),在男性和女性測(cè)試集上都獲得了一致的性能提升。
本文提出并構(gòu)建了基于內(nèi)容的x?vector 系統(tǒng),該系統(tǒng)針對(duì)一句話中的不同字分別利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行前端建模,取代了傳統(tǒng)方法中對(duì)整句話的建模。在RSR2015 數(shù)據(jù)集Part Ⅲ上的SV 實(shí)驗(yàn)結(jié)果表明:基于內(nèi)容的x?vector 系統(tǒng)相對(duì)于x?vector 系統(tǒng)在測(cè)試集上的性能有很大提升,說明了本文所提出方法的有效性。進(jìn)一步與基于內(nèi)容的i?vector 系統(tǒng)相比,性能提升更加明顯。下一步準(zhǔn)備改進(jìn)傳統(tǒng)的后端信道補(bǔ)償算法以及得分規(guī)整來進(jìn)一步提高實(shí)驗(yàn)性能。