陳晨,肜婭峰,季超群,陳德運(yùn),何勇軍
(1.哈爾濱理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150080;2.哈爾濱理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)博士后流動站,黑龍江 哈爾濱 150080)
近年來,以生物識別技術(shù)為基礎(chǔ)的身份認(rèn)證方式正在逐漸取代傳統(tǒng)的靜態(tài)身份認(rèn)證手段。隨著科技的發(fā)展,以指紋識別、人臉識別及說話人確認(rèn)為代表的一系列生物識別技術(shù)已在多種認(rèn)證場景中取得了較廣泛的應(yīng)用。其中,說話人確認(rèn)技術(shù)能夠根據(jù)說話人的聲音特性來有效識別其身份。由于每個(gè)人在說話過程中所蘊(yùn)含的語音特質(zhì)與發(fā)音習(xí)慣幾乎獨(dú)一無二,因此說話人確認(rèn)技術(shù)兼具生理特性與行為特性,從而使其相較于其他生物識別技術(shù)的仿冒難度更大、安全性更高[1]。與此同時(shí),“無接觸”的說話人確認(rèn)技術(shù)能夠有效阻斷“人傳人”的傳播鏈條,為個(gè)人健康提供更可靠的保障。
說話人確認(rèn)能夠通過對說話人語音信號的分析處理,來充分結(jié)合知識、數(shù)據(jù)、算法與算力,是邁向第三代人工智能[2]的典型代表。如何從大量語音數(shù)據(jù)中凝練出準(zhǔn)確的說話人身份信息,則是說話人確認(rèn)任務(wù)中最值得關(guān)注的研究焦點(diǎn)。為此,需要深入研究能夠直接代表說話人身份特性的特征表示問題,研究者也針對該問題提出了大量有效的說話人特征表示學(xué)習(xí)模型。其中,以身份?矢量(I-vector,identity-vector)[3]方法為基礎(chǔ)的一系列特征空間學(xué)習(xí)方法應(yīng)運(yùn)而生,它們均能將具有不同時(shí)長的語音信號映射為固定維度的低秩I-vector 特征表示。在這類方法中,因子分析(FA,factor analysis)[4]、廣義變化模型(GVM,generalized variability model)[5]、任務(wù)驅(qū)動多層結(jié)構(gòu)(TDMF,task-driven multilevel framework)[6]等方法為典型代表。此外,為了去除語音信號中的會話差異性信息(如語音內(nèi)容間的差異、噪聲、信道畸變等),還需要對I-vector 特征進(jìn)行會話補(bǔ)償[7-8]等操作。
除此之外,隨著深度神經(jīng)網(wǎng)絡(luò)在圖像處理、音頻處理等方面取得的突破進(jìn)展,基于深度神經(jīng)網(wǎng)絡(luò)的特征表示方法也逐漸出現(xiàn)在說話人確認(rèn)研究中。例如,D-vector 方法[9]采用深度神經(jīng)網(wǎng)絡(luò)(DNN,deep neural network)來提取說話人語音對應(yīng)的嵌入(embedding)特征,為端到端(E2E,end-to-end)說話人確認(rèn)方法的發(fā)展奠定了基礎(chǔ)。X-vector 方法[10-11]則利用時(shí)延神經(jīng)網(wǎng)絡(luò)(TDNN,time-delay neural network)[12]、統(tǒng)計(jì)池化層與全連接層來提取表示說話人身份的X-vector 特征。由于X-vector 方法能夠取得優(yōu)良的性能,在此基礎(chǔ)上又出現(xiàn)了基于分解TDNN(F-TDNN,factorized TDNN)[13]、擴(kuò)展TDNN(E-TDNN,extended TDNN)[14]、聚合殘差擴(kuò)展TDNN(ARE-TDNN,aggregated residual extended TDNN)[15]以及稠密連接TDNN(DC-TDNN,densely connected TDNN)[16]的X-vector 特征提取方法。此外,視覺幾何組?中等(VGG-M,visual geometry group-medium)[17]網(wǎng)絡(luò)則通過多層的卷積層與池化層的疊加來進(jìn)行說話人特征表示的學(xué)習(xí)。以上方法均通過構(gòu)建不同的網(wǎng)絡(luò)結(jié)構(gòu)來學(xué)習(xí)說話人的特征表示,考慮到目標(biāo)函數(shù)能夠?qū)W(wǎng)絡(luò)描述能力的提升起到重要的指導(dǎo)作用,因此,設(shè)計(jì)出有的放矢的目標(biāo)函數(shù)能夠使所提取的特征更適用于當(dāng)前任務(wù)。在這些目標(biāo)函數(shù)中,一類目標(biāo)函數(shù)以多分類為目標(biāo),例如softmax 損失、交叉熵?fù)p失(CE loss,cross entropy loss);另一類目標(biāo)函數(shù)以度量特征表示之間的相似度為目標(biāo),例如對比損失(contrastive loss)[18]與三元組損失(triplet loss)[19-20]等。也有一些目標(biāo)函數(shù)在多分類目標(biāo)的基礎(chǔ)上加入度量學(xué)習(xí)的限制,例如角 softmax(A-softmax,angular softmax)損失[21-22]、加性邊沿softmax(AM-softmax,additive margin softmax)損失[23]與加性邊沿質(zhì)心(AM-centroid,additive margin centroid)損失[24]等。
由于目標(biāo)函數(shù)是整個(gè)任務(wù)目標(biāo)的最直觀體現(xiàn),它能直接影響網(wǎng)絡(luò)參數(shù)的優(yōu)化方向,因此一個(gè)優(yōu)秀的目標(biāo)函數(shù)將為網(wǎng)絡(luò)的特征表示能力帶來大幅提升。目前,說話人確認(rèn)研究中所采用的目標(biāo)函數(shù)均基于這一原則取得了卓有成效的成績。然而,說話人的類別不勝枚舉,并無法保證訓(xùn)練數(shù)據(jù)能夠涵蓋全部待識別語音的類別,因此采用以多分類為目標(biāo)的目標(biāo)函數(shù)往往會導(dǎo)致模型的泛化能力不強(qiáng);反之,以度量學(xué)習(xí)為目標(biāo)的目標(biāo)函數(shù)則通過分別控制同類、異類說話人深層特征間的相關(guān)性,來驅(qū)使網(wǎng)絡(luò)朝著提升類內(nèi)相似性與類間差異性的方向優(yōu)化,從而為網(wǎng)絡(luò)帶來更強(qiáng)的泛化性與普適性。目前,基于度量學(xué)習(xí)的目標(biāo)函數(shù)大多僅通過簡單的歐氏距離或余弦距離來衡量特征間的相關(guān)性,并無法準(zhǔn)確捕獲特征間復(fù)雜的非線性關(guān)系。而此非線性關(guān)系才是特征間相關(guān)性的真實(shí)寫照,其對特征在特征空間的可區(qū)分性表示具有十分重要的指導(dǎo)性作用。因此,如何有效度量這種非線性關(guān)系是目前亟待解決的關(guān)鍵問題。
針對上述問題,考慮到非線性關(guān)系無法通過顯性的表達(dá)式進(jìn)行表示,但能夠以計(jì)算特征所在分布之間相似度的方式進(jìn)行隱性表示,因此本文將能夠計(jì)算分布間相似度的信息散度(ID,information divergence)[25-26]引入目標(biāo)函數(shù)的表示過程中,提出基于深層信息散度最大化的說話人確認(rèn)方法。其將最大化特征之間的統(tǒng)計(jì)相關(guān)性作為優(yōu)化目標(biāo),并以此來控制神經(jīng)網(wǎng)絡(luò)挖掘同類特征之間必然存在的相容性信息、提升異類特征在特征空間的差異性,最終有效提升深層特征空間的區(qū)分性。
在說話人確認(rèn)任務(wù)中,目標(biāo)函數(shù)的定義對區(qū)分性網(wǎng)絡(luò)學(xué)習(xí)具有至關(guān)重要的作用。同時(shí),由于說話人確認(rèn)系統(tǒng)應(yīng)具備開集測試的能力,因此定義基于同類、異類說話人間關(guān)系的目標(biāo)函數(shù)能夠?yàn)榫W(wǎng)絡(luò)的學(xué)習(xí)提供普適性更強(qiáng)的下游任務(wù)目標(biāo)。值得注意的是,傳統(tǒng)基于距離的相似度度量方式無法有效表示特征間的非線性關(guān)系。為此,本文構(gòu)建了一種基于深層信息散度的目標(biāo)函數(shù),其能夠有效度量同類、異類說話人特征所在分布之間的差異性,從而更加準(zhǔn)確地刻畫深層特征間的抽象關(guān)系。在此目標(biāo)函數(shù)的指導(dǎo)下,神經(jīng)網(wǎng)絡(luò)能夠向著同類更緊湊、異類更分離的方向進(jìn)行優(yōu)化。
定義s表示隨機(jī)采樣的樣本組,其由2 個(gè)深層特征組成。當(dāng)樣本組中的特征屬于同類時(shí),它們的聯(lián)合分布為P(s)=P(za,zp);當(dāng)屬于異類時(shí),它們的聯(lián)合分布為Q(s)=Q(za,zn),其中za、zp、zn分別表示固定(anchor)樣本、正例(positive)樣本、負(fù)例(negative)樣本。由于同類、異類樣本分布間的差異應(yīng)盡可能大,因此本文通過最大化P(s)與Q(s)間的ID 來達(dá)到提升同類、異類差異的目標(biāo),此信息散度可以表示為
對式(1)進(jìn)行等價(jià)變換,可以得到
定義f(x)=xl ogx,其中,則式(2)可以轉(zhuǎn)換為
其中,函數(shù)f(x)可以由其共軛函數(shù)f*(t)進(jìn)行表示,具體形式為
由式(4)可推導(dǎo)出,f(x)=xl ogx的共軛函數(shù)為f*(t)=et?1。由于每個(gè)x都有與其對應(yīng)的t,因此t是關(guān)于x的函數(shù),本文將其表示為t=d(x)。將f*(t)與d(x)同時(shí)代入式(4),可以得到
將式(5)代入式(3),則P(s)與Q(s)分布之間的信息散度可以進(jìn)一步表示為
至此,便得到了基于信息散度表示的目標(biāo)函數(shù)的一般形式。其中,P(s)Q(s)為正、負(fù)樣本組的似然比,是說話人確認(rèn)中最常見的評價(jià)指標(biāo)之一,當(dāng)函數(shù)d(?)作用于其上時(shí),所得到的新形式仍可用于衡量2 個(gè)樣本間相關(guān)性。
本節(jié)將在第2.1 節(jié)的基礎(chǔ)上,進(jìn)一步展開討論函數(shù)d(?)的具體形式。當(dāng)s~P(s)時(shí),s為正例樣本組;當(dāng)s~Q(s)時(shí),s為負(fù)例樣本組。因此Es~P(s)[d(?)]與 Es~Q(s){exp[d(?) ?1]}分別對應(yīng)了正、負(fù)例樣本組的相關(guān)性?;诖?,式(6)可以進(jìn)一步表示為
為了使d(?)繼承似然比的作用,其仍然應(yīng)該具備相似度計(jì)算的功能?;诖耍疚膶⑵涠x為余弦距離打分(CDS,cosine distance score)的形式
在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置方面,考慮到VGG-M 網(wǎng)絡(luò)[17]作為說話人確認(rèn)領(lǐng)域中的經(jīng)典網(wǎng)絡(luò)之一,能夠取得良好的性能,且已經(jīng)得到了很多研究者的實(shí)驗(yàn)驗(yàn)證,因此本文采用VGG-M 網(wǎng)絡(luò)進(jìn)行特征表示學(xué)習(xí)。網(wǎng)絡(luò)輸入采用語譜圖特征,對輸入特征進(jìn)行隨機(jī)的三元組采樣,得到樣本xa、xp、xn,它們經(jīng)VGG-M得到的嵌入特征分別表示為、
圖1 基于深層信息散度最大化與VGG-M 網(wǎng)絡(luò)的結(jié)構(gòu)
本文實(shí)驗(yàn)采用VoxCeleb1 數(shù)據(jù)庫[17]對不同方法的性能進(jìn)行對比與分析,該數(shù)據(jù)庫的全部音頻選自YouTube 視頻網(wǎng)站,是來自復(fù)雜場景下的真實(shí)語音,包含大量未知噪聲。使用該數(shù)據(jù)庫官方說話人確認(rèn)任務(wù)的劃分方案:將說話人中不以字母“E”開頭的說話人語音作為開發(fā)集數(shù)據(jù),其中包含1 211 位說話人、148 642 段語音;以字母“E”開頭的說話人語音作為評估集數(shù)據(jù),其中包含50 位說話人、4 874 段語音。測試時(shí)采用官方測試計(jì)劃,總測試數(shù)為37 720 次,目標(biāo)測試與非目標(biāo)測試比為1:1。實(shí)驗(yàn)采用等錯(cuò)誤率(EER,equal error rate)與最小檢測代價(jià)函數(shù)(Min DCF,minimum detection cost function)來衡量系統(tǒng)的性能,其中Min DCF 的參數(shù)設(shè)置為Cmiss=1,Cfa=1,Ptarget= 0.01。
為了驗(yàn)證信息散度最大化目標(biāo)函數(shù)的有效性,本文根據(jù)如上所述的數(shù)據(jù)庫與實(shí)驗(yàn)設(shè)置,分別從性能對比與分析、收斂性分析、可視化分析3 個(gè)角度進(jìn)行實(shí)驗(yàn)。
本節(jié)將所提方法(簡記為ID-max VGG-M)與其他方法的識別性能進(jìn)行對比。對比方法除了選擇2 個(gè)經(jīng)典的說話人確認(rèn)方法,即高斯混合模型?通用背景模型(GMM-UBM,Gaussian mixture model-universal background model)[27]、基于因子分析的I-vector 方法[3]外,還選擇了如下基于深度學(xué)習(xí)的方法:采用對比(contrastive)損失的孿生(siamese)VGG-M 網(wǎng)絡(luò)[17]、采用三元組(triplet)損失[19]的VGG-M 網(wǎng)絡(luò)與采用AM-softmax 損失[23]的VGG-M 網(wǎng)絡(luò)。為了便于書寫,本文將上述方法分別簡記為GMM-UBM、I-vector+PLDA、Siamese VGG-M、Triplet VGG-M 與AM-softmax VGG-M。
在經(jīng)典方法的實(shí)驗(yàn)中,先對各說話人語音進(jìn)行語音活動檢測處理[28],以去除語音中的靜音部分,然后進(jìn)行特征提取。前端特征采用梅爾倒譜系數(shù)(MFCC,Mel-frequency ceptral coefficient)特征,其維度為13 維,并計(jì)算其一階、二階差分,組成39 維的聲學(xué)特征。通用背景模型(UBM,universal background model)的高斯混合分量個(gè)數(shù)為1 024,總變化空間維度為400 維,概率線性判別分析模型(PLDA,probabilistic linear discriminant analysis)的子空間維度為200 維。在識別階段,GMM-UBM 通過計(jì)算測試語音在目標(biāo)說話人GMM 上的似然概率密度來獲得匹配得分;I-vector+PLDA 方法采用PLDA 模型作為后端分類器;Siamese VGG-M、Triplet VGG-M 與AM-softmax VGG-M 方法采用CDS 方法進(jìn)行說話人確認(rèn)匹配。
在深度學(xué)習(xí)方法的實(shí)驗(yàn)中,網(wǎng)絡(luò)的輸入為語譜圖特征,為了保證實(shí)驗(yàn)對比的公平性與有效性,其參數(shù)設(shè)置與文獻(xiàn)[17]一致,即滑動窗的窗長設(shè)置為25 ms,幀移為10 ms,快速傅里葉變換的點(diǎn)數(shù)為512 個(gè)?;诖?,對于一段3 s 的語音,可以提取512×300 維的語譜圖特征。對于VGG-M 網(wǎng)絡(luò),其結(jié)構(gòu)同樣采用文獻(xiàn)[17]中的設(shè)置,最后一層全連接層的節(jié)點(diǎn)數(shù)為1 024 個(gè),由此可得說話人深層特征表示的維度為1 024 維。訓(xùn)練VGG-M 網(wǎng)絡(luò)的優(yōu)化器采用隨機(jī)梯度下降(SGD,stochastic gradient descent)算法,學(xué)習(xí)率與迭代次數(shù)則根據(jù)多次的參數(shù)調(diào)優(yōu)來確定,最終選擇性能最佳時(shí)對應(yīng)的初始學(xué)習(xí)率、最終學(xué)習(xí)率與迭代次數(shù),分別為0.001、0.000 1與80。根據(jù)上述實(shí)驗(yàn)設(shè)置,不同方法對應(yīng)的系統(tǒng)性能情況如表1 所示。
表1 不同方法的性能對比
由表1 的實(shí)驗(yàn)結(jié)果可以得出,相比于其他方法,本文提出的ID-max VGG-M 方法具有更低的EER。其與Siamese VGG-M 方法、Triplet VGG-M 方法、AM-softmax VGG-M 方法3 種方法相比,相對EER分別降低了10.1%、15.8%、14.3%。這也這也驗(yàn)證了本文所提出的ID-max 目標(biāo)函數(shù)能夠指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)更具表示能力的說話人深層特征。
本節(jié)將對ID-max VGG-M 方法的收斂性進(jìn)行驗(yàn)證與分析,通過記錄每次VGG-M 網(wǎng)絡(luò)訓(xùn)練時(shí)在評估集數(shù)據(jù)上的EER,來繪制收斂性曲線。根據(jù)上述的實(shí)驗(yàn)設(shè)置,4 種方法的收斂性曲線如圖2所示。
圖2 收斂性曲線對比
從圖2 中可得到以下結(jié)論。
1) 從整體上看,隨著迭代次數(shù)的增加,這4 種方法對應(yīng)的等錯(cuò)誤率呈下降趨勢,系統(tǒng)性能逐漸上升。相比于其他3 種方法,ID-max VGG-M 方法的等錯(cuò)誤率更低。
2) 這4 種方法均能夠在有限的迭代次數(shù)內(nèi)達(dá)到收斂狀態(tài),其中ID-max VGG-M 方法在第79 次迭代時(shí),等錯(cuò)誤率達(dá)到最低,為6.61%,這是說話人確認(rèn)系統(tǒng)最優(yōu)的性能。
本節(jié)將采用t-SNE 方法[29]對提取的深層特征表示(embedding)進(jìn)行2D 可視化處理,其中t-SNE初始降維的維度為30 維,困惑度為10。在評估集中隨機(jī)選擇5 位說話人,并從這5 位說話人的全部數(shù)據(jù)中隨機(jī)選擇80 段語音,各方法均采用以上設(shè)置進(jìn)行數(shù)據(jù)選擇。根據(jù)上述設(shè)置,不同方法對應(yīng)的可視化圖像如圖3 所示,其中,不同灰度的點(diǎn)代表不同說話人。將所對比方法的說話人特征表示分別記為I-vector 特征、PLDA 說話人隱變量、Siamese VGG-M embedding 特征、Triplet VGG-M embedding特征、AM-softmax VGG-M embedding 特征與ID-max VGG-M embedding 特征。
由圖3 中的實(shí)驗(yàn)結(jié)果可以得出以下結(jié)論。
1) 由圖3(a)與圖3(b)可知,相同類別的說話人特征能夠在一定程度上聚集在一起,這是因?yàn)榻?jīng)典的I-vector 特征與PLDA 隱變量已具有一定的區(qū)分能力。但是同類數(shù)據(jù)仍然較分散,異類數(shù)據(jù)之間也有相互交疊。
2) 對比圖3(c)、圖3(d)與圖3(f)可知,圖3(f)中的同類特征點(diǎn)更加緊湊。矩形框1 內(nèi)的這一現(xiàn)象尤其明顯:圖3(c)與圖3(d)中的特征點(diǎn)分散在多個(gè)簇內(nèi),而圖3(f)中的特征點(diǎn)則相對更加集中。
3) 由圖3(e)與圖3(f)可知,與ID-max 目標(biāo)函數(shù)相比,當(dāng)以AM-softmax 為目標(biāo)函數(shù)提取說話人特征時(shí),同類特征點(diǎn)在空間中仍然較分散,圖3(e)矩形框2 中的特征點(diǎn)分散得尤其明顯。
圖3 說話人特征表示的可視化圖像對比
由此可見,本文提出的基于深層信息散度最大化的目標(biāo)函數(shù)能夠使同類的說話人特征表示更加緊湊,異類的特征更加分散。由此得到的說話人特征表示的區(qū)分性更強(qiáng),相應(yīng)說話人確認(rèn)系統(tǒng)的性能也能更優(yōu)。
本文提出一種基于深層信息散度最大化的目標(biāo)函數(shù)表示方法,其將最大化同類、異類說話人特征表示所在分布之間的信息散度作為優(yōu)化目標(biāo),挖掘其中存在的非線性關(guān)聯(lián)信息。并以此來控制神經(jīng)網(wǎng)絡(luò)挖掘同類樣本之間相關(guān)性信息,從而有效提升不同說話人數(shù)據(jù)在特征空間的區(qū)分性。實(shí)驗(yàn)結(jié)果表明,與其他方法相比,所提方法能夠有效改善說話人確認(rèn)系統(tǒng)的性能。