陳 晨,季超群,李文文,陳德運,2,王莉莉,2,楊海陸,2
(1. 哈爾濱理工大學(xué)計算機科學(xué)與技術(shù)學(xué)院 哈爾濱 150080;2. 哈爾濱理工大學(xué)計算機科學(xué)與技術(shù)博士后流動站 哈爾濱 150080)
生物特征識別是一項根據(jù)人類自身的生物特性進行身份鑒別的技術(shù)。近年來隨著人工智能、大數(shù)據(jù)、云計算等技術(shù)的飛速發(fā)展,生物特征識別技術(shù)正越來越廣泛地應(yīng)用于監(jiān)控、監(jiān)視、網(wǎng)絡(luò)安全和執(zhí)法等方面[1]。在眾多生物特征識別技術(shù)中,說話人確認[2]技術(shù)因兼顧生物特征的生理特性與行為特性,具有更高的安全性,備受研究者的廣泛關(guān)注。
隨著深度學(xué)習(xí)的快速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)在很多領(lǐng)域都取得了較好的效果。視覺幾何組?中等(visual geometry group-middle, VGG-M)網(wǎng)絡(luò)[3]最初應(yīng)用于圖像處理領(lǐng)域,由于其在圖像處理領(lǐng)域的優(yōu)異表現(xiàn)被各界關(guān)注,并應(yīng)用于說話人確認任務(wù)的特征提取階段[4]。深層殘差網(wǎng)絡(luò)(deep residual networks,ResNet)[5]則可將淺層數(shù)據(jù)直接傳遞到深層網(wǎng)絡(luò),有利于梯度優(yōu)化并加快網(wǎng)絡(luò)的訓(xùn)練效率。
在目標函數(shù)方面,最初以分類為目標的目標函數(shù)最為常見[6]。這類目標函數(shù)主要圍繞softmax 損失從兩個角度開展研究,一是通過增加不同類別決策邊界間的距離來提升其區(qū)分能力,包括其變形角-softmax(angular softmax, A-softmax)損失[7]、加性間隔softmax(additive margin softmax, AM-softmax)損失[8]、動態(tài)加性間隔softmax(dynamic-additive margin softmax)[9]、加 性 角 間 隔softmax(additive angular margin softmax, AAM-softmax)損失[10]等;二是通過正則化的形式來增加softmax 損失的區(qū)分性,這類方法通常以加權(quán)的形式建立起正則化器與softmax 損失的聯(lián)系,使用的正則化器一般也是可獨立使用的損失函數(shù),如中心(center)損失[11]、環(huán)(ring)損失[12]等。度量學(xué)習(xí)側(cè)重于考慮特征間的類間與類內(nèi)關(guān)系,能夠幫助以分類為目標的目標函數(shù)更全面地計算特征間的相關(guān)度與區(qū)分度,是開放集度量學(xué)習(xí)問題。因此,以度量學(xué)習(xí)為目標的目標函數(shù)更適合確認任務(wù)。常見的以度量學(xué)習(xí)為目標的目標函數(shù)包括二元交叉熵損失[13]、對比(contrastive)損失[14]、三元組(triplet)損失[15]、四元組損失[16]、基于互信息(mutual information, MI)的目標函數(shù)[17]等。且隨著采樣技術(shù)的研究與發(fā)展,僅以度量學(xué)習(xí)為優(yōu)化目標的方法也能夠具有理想的性能,與分類結(jié)合度量學(xué)習(xí)的方法具有相仿的效果[18]。
以度量學(xué)習(xí)為目標的目標函數(shù)能夠深度挖掘同類特征和異類特征相關(guān)性,使網(wǎng)絡(luò)朝著類內(nèi)相似和類間差異的方向進行更新。度量學(xué)習(xí)在計算距離時,通常采用傳統(tǒng)的相似度計算方式,如歐氏距離打分、余弦距離打分等。由于其不具備參數(shù),使得在相似度計算方面存在靈活性弱、適應(yīng)性差等問題。當(dāng)把這些傳統(tǒng)的相似度計算方式應(yīng)用于目標函數(shù)中時,并不能對特征間復(fù)雜的非線性關(guān)系進行有效表示。針對這一問題,可以有針對性地開發(fā)度量學(xué)習(xí)方法中的自適應(yīng)能力,從而使目標函數(shù)能夠根據(jù)特征的特點進行動態(tài)調(diào)整,并在此目標的指引下提升網(wǎng)絡(luò)對特征表示的區(qū)分能力??紤]到自適應(yīng)性的度量方式能夠根據(jù)類內(nèi)和類間的特征分布進行有針對性的參數(shù)更新,使得在該度量方式下選取的特征更具有典型性,更有利于目標函數(shù)對于網(wǎng)絡(luò)的特征表示?;诖耍疚睦没バ畔砗饬客愄卣髦g的相似性信息和異類特征之間的差異性信息,并將一種能夠進行自適應(yīng)學(xué)習(xí)的度量方法——神經(jīng)概率線性判別分析(neural PLDA, NPLDA)[19]引入到目標函數(shù)的表示中。經(jīng)過NPLDA 對embedding特征的真實情況進行動態(tài)調(diào)整后,基于互信息的目標函數(shù)能夠更好地指引網(wǎng)絡(luò)朝著類內(nèi)相似化、類間差異化的方向更新。本文將此方法命名為互信息自適應(yīng)估計(mutual information adaptive estimation,MIAD),其將最大化互信息作為神經(jīng)網(wǎng)絡(luò)的優(yōu)化目標。
本文方法的過程示意圖如圖1 所示。本文利用互信息來衡量同類、異類說話人特征所在分布之間的差異性。并利用NPLDA 模型對特征間的相似性進行自適應(yīng)表示,從而保證在每輪更新中,根據(jù)embedding 特征的分布特性,有針對性地進行特征間的相似性表示??紤]到需要對同類與異類進行表示,本文所提出的目標函數(shù)需以度量學(xué)習(xí)為目標,并通過三元組數(shù)據(jù)進行表示,此方法的過程示意圖如圖1 所示。定義由神經(jīng)網(wǎng)絡(luò)提取的embedding 特征xa、xp、xn分 別 為 基 準(anchor)樣 本、正 例(positive)樣本、負例(negative)樣本,基準樣本與正例樣本所屬的說話人類別相同,與負例樣本所屬的類別不同。根據(jù)上述符號定義,本文所提出的目標函數(shù)可以表示為:
圖1 本文所提出方法的過程示意圖
式中,N表示三元組的個數(shù);Si(xa,xn) 表 示第i個三元組中xa與xn的 相似度;Si(xa,xp)表 示第i個三元組中xa與xp的 相似度。通過最小化fMIAD,可以使基準xa與 正例xp的 相似度達到最大、與負例xn的相似度達到最小,從而達到最大化類間相似度、最小化類內(nèi)相似度的目標。
對于式(1)中的相似度Si(·),簡單的相似度度量方法(如歐式距離、余弦距離等)無法保證能準確地衡量embedding 特征間的關(guān)系,因此需要根據(jù)特征的真實情況來對相似度進行動態(tài)調(diào)整?;诖?,本文將具有驗證識別代價能力的NPLDA 引入,并將其用作相似度度量方法。其能夠根據(jù)同類漏報率、異類誤報率進行參數(shù)的自適應(yīng)調(diào)整。NPLDA 的相似度計算方式與傳統(tǒng)PLDA 的對數(shù)似然比打分類似,均能夠表示為:
式中,xi、xj為進行相似度計算的embedding 特征;P、Q為NPLDA 模型的參數(shù),它們的初始值是隨機生成的0~1 之間呈均勻分布的矩陣,能隨著embedding 特征的改變而進行動態(tài)調(diào)整。
在NPLDA 的訓(xùn)練過程中,需要對同類漏報率、異類誤報率進行評價。漏報率與誤報率越大,模型損失越大,因此可將最小化它們的加權(quán)和當(dāng)作模型的優(yōu)化目標。同時,由于漏報與誤報針對的識別任務(wù)是確認任務(wù)(即目標與非目標的二分類問題),因此需要對NPLDA 的訓(xùn)練數(shù)據(jù)進行劃分,以組成以“對”為單位的樣本組。針對這一問題,本文采用隨機抽樣生成標簽的方式進行樣本組的劃分。基于上述描述,NPLDA 的目標函數(shù)可以表示為:
式中,Si為 第i個 樣本組的相似度;ti為樣本組的標簽,當(dāng)樣本組中兩個embedding 特征為同類時,ti=1, 反之ti=0; ρ為 翹曲系數(shù),當(dāng) ρ值足夠大時,Ls(β,θ)的 近 似 值 能 夠逼 近 原 始 值,本文 將 ρ設(shè) 置為15。
在本文所提出的目標函數(shù)中,需要采用NPLDA以計算embedding 特征的相似度,而在計算目標函數(shù)前,還需通過embedding 特征間的相似度以選取三元組。為了統(tǒng)一目標函數(shù)與三元組選取時的相似度度量方法,本文在進行三元組選取時,同樣采用NPLDA 計算embedding 特征間的相似度,以確保不同環(huán)節(jié)中相似度的一致性。
在三元組選取時,對于每個類別的embedding特征xa, 首先均需計算其類內(nèi)相似度S(xa,xp)與類間相似度S(xa,xn)。然后,再從全部備選特征中,選擇符合要求的三元組。具體而言,若當(dāng)前三元組中類內(nèi)相似度大于類間相似度,則該三元組中的樣本為易區(qū)分樣本,在篩選時應(yīng)盡量減少對這類三元組的選擇。為了加快網(wǎng)絡(luò)的收斂速度,應(yīng)選取類內(nèi)相似度小于類間相似度的三元組,如此便可更直觀地向網(wǎng)絡(luò)傳遞誤差信息,加快網(wǎng)絡(luò)的收斂速度。同樣地,類內(nèi)相似度與類間相似度相差不大的三元組對于網(wǎng)絡(luò)參數(shù)的更新也具有正向的促進作用,為了能夠區(qū)分這一情況下的三元組,引入間隔(Margin)變量 α,根據(jù)經(jīng)驗 α值一般設(shè)置在0.1~1 之間。引入間隔后的三元組選取規(guī)則如下:
待選擇的三元組若不滿足式(7),則說明當(dāng)前網(wǎng)絡(luò)不能將該三元組進行正確分類,選擇該三元組進入網(wǎng)絡(luò)中學(xué)習(xí),使網(wǎng)絡(luò)在后續(xù)的訓(xùn)練中能夠?qū)ζ溥M行正確的分類。在三元組選取時,需要有針對性地選擇訓(xùn)練數(shù)據(jù)、構(gòu)建數(shù)據(jù)組,此過程需要一定的調(diào)參經(jīng)驗,對于方法的復(fù)現(xiàn)存在少許挑戰(zhàn)。
在說話人確認的測試階段,需從網(wǎng)絡(luò)中提取embedding 特征用于后續(xù)的特征匹配。定義網(wǎng)絡(luò)提取的目標說話人embedding 特征為xtarget= (y1,y2,···,yD)T,測試說話人embedding 特征為xtest=(b1,b2,···,bD)T。本文采用余弦距離打分(CDS)進行相似度計算,CDS 可表示為:
為了驗證本文方法在真實應(yīng)用場景中的有效性,實驗采用語音質(zhì)量參差不齊的大規(guī)模說話人識別數(shù)據(jù)庫VoxCeleb1[4]。數(shù)據(jù)庫中的音頻均提取自YouTube 視頻網(wǎng)站,這些音頻取自多種復(fù)雜環(huán)境,包含各類噪音。數(shù)據(jù)庫的開發(fā)集包含1 211 位說話人(690 男,561 女)提供的148 642 段語音音頻。評估集則包含開發(fā)集類別以外的40 位說話人,共計4 874 條語音。測試時采用官方測試計劃列表,總測試數(shù)為37 720 次,非目標測試與目標測試比為1:1。評價標準采用等錯誤率(equal error rate, EER)與 最 小 檢 測 代 價 函 數(shù)(minimum detection cost function, minDCF),其中minDCF 的參數(shù)采用官方設(shè)置。EER 與minDCF 的數(shù)值越低,說明性能越好。實驗將從性能、收斂性及特征可視化3 方面,對所提出方法的性能進行定量與定性的多方位對比分析。
本節(jié)將對比本文所提方法(MIAD)與其他各類方法的性能,對比的方法包括說話人確認中傳統(tǒng)的統(tǒng)計模型與深度神經(jīng)網(wǎng)絡(luò)模型。其中,統(tǒng)計模型類方法包括高斯混合模型?通用背景模型(Gaussian mixture model-universal background model, GMMUBM)[20]、身份?矢量(identity-vector, I-vector)結(jié)合概率線性判別分析(probabilistic linear discriminate analysis, PLDA),簡寫為I-vector+PLDA[21]。GMMUBM 的前端聲學(xué)特征分別采用梅爾倒譜系數(shù)(melfrequency cepstral coefficient, MFCC)特征[2,22]、修改冪歸一化倒譜系數(shù)(modified power-normalized cepstral coefficients, MPNCC)特征[23]、基于仿射變換與特征轉(zhuǎn)換(affine transform and feature switching,ATFS)的特征[23]。深度神經(jīng)網(wǎng)絡(luò)模型則包括以VGG-M、ResNet34[5]為網(wǎng)絡(luò)結(jié)構(gòu),并分別以對比損失、三元組損失、AM-softmax 損失為目標函數(shù)的6 種說話人識別系統(tǒng)。上述6 種方法均采用CDS 來進行說話人匹配,分別簡寫為VGGM+Contrastive、 VGG-M+Triplet、 VGG-M+AMsoftmax、ResNet34+Contrastive、ResNet34+Triplet、ResNet34+AM-softmax。對于上述6 種使用VGGM 網(wǎng)絡(luò)、ResNet34 網(wǎng)絡(luò)的方法,還分別提取了embedding 特征,并利用NPLDA 作為后端分類器,分別簡寫為VGG-M+Contrastive+NPLDA、VGG-M+Triplet+NPLDA、 VGG-M+AM-softmax+NPLDA、ResNet34+Contrastive+NPLDA、ResNet34+Triplet+NPLDA、ResNet34+AM-softmax +NPLDA。此外,對比方法還包括:基于CNN 的方法(AutoSpeech)[24]、基 于VGG 的 網(wǎng) 絡(luò)[25]、SincNet 網(wǎng)絡(luò)[26]、基于VGG-M+MI[17]的方法。
上述方法的參數(shù)設(shè)置如下:在統(tǒng)計模型方面,MFCC 特征、MPNCC 特征、ATFS 特征的維度分別為13 維、9 維、9 維,且上述3 種特征均采用一階、二階差分。GMM-UBM 的高斯分量個數(shù)為1 024 個,i-vector 維度為400 維,PLDA 模型的子空間維度為200 維。在深度神經(jīng)網(wǎng)絡(luò)模型方面,首先對輸入的語音信號預(yù)加重、分幀、加窗等預(yù)處理操作。預(yù)加重系數(shù)設(shè)置為0.97,加窗的窗長為25 ms,幀移為10 ms,F(xiàn)FT 的點數(shù)設(shè)置為512 個。經(jīng)過以上操作后可以獲得一個512×300 維的語譜圖特征。VGG-M 網(wǎng)絡(luò)、ResNet34 網(wǎng)絡(luò)最后一層全連接層的維度為1 024 維,其對應(yīng)的embedding 特征亦為1 024 維。在三元組選取時,間隔 α設(shè)置為0.3。VGG-M、ResNet34 的優(yōu)化算法采用隨機梯度下降(stochastic gradient descent, SGD)算法,初始學(xué)習(xí)率為1 0?3, 最終學(xué)習(xí)率為1 0?4。在MIAD 目標函數(shù)中的NPLDA 模型則使用適應(yīng)性矩估計(adaptive moment estimation, Adam)算法作為優(yōu)化器?;谝陨蠀?shù)設(shè)置,不同方法的實驗性能如表1 所示。
表1 不同方法的性能對比
從表中可以看出以下幾點。
1) VGG-M+MIAD 方 法、ResNet34+MIAD 方法的性能明顯優(yōu)于使用相同網(wǎng)絡(luò)的其他方法,EER明顯降低。在相同網(wǎng)絡(luò)結(jié)構(gòu)的條件下,MIAD 能夠取得優(yōu)于其他目標函數(shù)的性能。
2) 相比于VGG-M+MI,本文所提方法的EER雖然只有小幅度降低,但相比于其他目標函數(shù)的性能提升明顯,EER 最多降低了2.35%。且所提方法的亮點在于能夠有針對性地開發(fā)度量學(xué)習(xí)的自適應(yīng)能力,能使目標函數(shù)根據(jù)特征的特點進行動態(tài)調(diào)整,還能消除三元組選取階段和目標函數(shù)相似度度量方法不一致的隱患。
3) ResNet34+MIAD 相比于其他深度神經(jīng)網(wǎng)絡(luò)方法,相對等錯誤率最多降低了28%。本文所提的MIAD 目標函數(shù)能夠有效地衡量同類、異類說話人特征所在分布之間的差異性,引入自適應(yīng)方法能夠更有針對性地對embedding 特征進行表示,有效提升了識別系統(tǒng)的性能。
本節(jié)將對比具有相同網(wǎng)絡(luò)結(jié)構(gòu)的不同目標函數(shù)方法的收斂性。網(wǎng)絡(luò)結(jié)構(gòu)分別為VGG-M、ResNet34,目標函數(shù)則包含AM-softmax 損失、三元組損失、對比損失、MIAD 損失。收斂性曲線采用EER 和minDCF 作為性能評價指標,上述所有方法均使用相同的預(yù)訓(xùn)練模型。4 種方法的收斂性曲線圖如圖2 所示,從圖中可以看出以下幾點。
圖2 收斂性曲線對比圖
1) 隨著迭代次數(shù)的增加,全部方法的等錯誤率和minDCF 均有下降趨勢。本文的MIAD 方法在使用兩種網(wǎng)絡(luò)結(jié)構(gòu)的情況下,等錯誤率和minDCF 更低。
2) 本文方法VGG-M+MIAD 在經(jīng)過78 輪迭代后等錯誤率達到最低,數(shù)值為6.60%,ResNet34+MIAD 在經(jīng)過67 輪迭代后等錯誤率達到最低,數(shù)值為6.44%,相比于其他使用相同網(wǎng)絡(luò)結(jié)構(gòu)的方法性能更好??梢宰C明本文方法能夠提升說話人識別系統(tǒng)的性能。
3) 本文方法在使用相同網(wǎng)絡(luò)的情況下,均擁有更低的minDCF,VGG-M+MIAD 數(shù)值為0.62,ResNet34+MIAD 數(shù)值為0.60。進一步證明了本文方法具有更好的性能。
為了更直觀地衡量本文方法的有效性,使用t-SNE[27]方法對不同方法進行可視化表示。對比方法包括i-vector 特征、PLDA 說話人隱變量、VGG-M+Contrastive 的embedding 特 征、VGG-M+Triplet 的embedding 特 征、VGG-M+AM-softmax的embedding 特征、VGG-M+MIAD 的embedding特 征、ResNet34+Contrastive 的embedding 特 征、ResNet34+Triplet 的embedding 特 征、 ResNet34+AM-softmax 的embedding 特 征、ResNet34+MIAD的embedding 特征。從評估集中隨機選擇5 位說話人進行可視化表示,每位說話人包含80 段語音,不同類別的說話人對應(yīng)不同灰度的點。t-SNE 方法的各項參數(shù)設(shè)置為:維度30 維,困惑度10。
基于上述實驗設(shè)置,不同方法的可視化對比圖如圖3 所示。從圖中可以看出以下兩點。
圖3 不同特征的可視化對比圖
1) 相比于圖3a~3e、3g~3j,圖3f、3j 中的可視化特征聚集得更緊湊。由此可見,本文方法能夠更好地捕獲同類特征的相似性。
2) 在各子圖的矩形框①中,圖3a-3e、3h 中的同類特征均被聚到2 簇中,但圖3f、3j 卻能很好地聚到同一簇中。同樣地,在子圖的矩形框②中,圖3c-3e、3g 中的同類特征均被聚到2 簇中,但圖3f、3j 卻能很好地聚到同一簇中。由此可見,對于那些類內(nèi)差異性大的特征,本文方法仍然能夠很好地對其同類相似性進行表示。
本文提出了一種基于互信息自適應(yīng)估計的目標函數(shù),該目標函數(shù)能夠根據(jù)特征的實際情況進行動態(tài)調(diào)整,使得互信息估計能夠挖掘到更有價值的同類、異類特征信息。該方法還將具有自適應(yīng)能力的度量方法NPLDA 應(yīng)用于特征選取階段,NPLDA能夠根據(jù)特征的真實情況有針對性地更新參數(shù),使選取的特征更典型,從而有效提升在此目標函數(shù)監(jiān)督下網(wǎng)絡(luò)的表示能力。從性能、收斂性、特征可視化3 個方面的對比分析可以證明,本文方法在說話人確認任務(wù)上具有良好表現(xiàn)。在后續(xù)的研究工作中,考慮到NPLDA 中的漏報與誤報對應(yīng)的是目標/非目標的確認任務(wù),因此可以將其目標函數(shù)改進為基于互信息的損失,從而為整個網(wǎng)絡(luò)的優(yōu)化帶來正向提升。