曹嘉玲 陳寧
摘 要:近期研究表明,基于大量無標(biāo)簽語音樣本訓(xùn)練的預(yù)訓(xùn)練模型所提取的特征在說話人驗(yàn)證(SV)任務(wù)中表現(xiàn)突出。然而,現(xiàn)有模型尚無法利用幀級(jí)特征間的拓?fù)浣Y(jié)構(gòu)特性對(duì)幀級(jí)特征進(jìn)行有效的優(yōu)化和聚合,并且網(wǎng)絡(luò)復(fù)雜度較高不利于實(shí)現(xiàn)實(shí)時(shí)性;同時(shí),現(xiàn)有模型尚無法充分利用多種輸入特征之間的互補(bǔ)性以進(jìn)一步提升模型的性能。為此,一方面引入圖神經(jīng)網(wǎng)絡(luò),利用幀級(jí)特征間的拓?fù)浣Y(jié)構(gòu)特性對(duì)幀級(jí)特征進(jìn)行優(yōu)化;另一方面,構(gòu)造基于多損失的多特征融合機(jī)制以充分利用不同特征之間的互補(bǔ)性進(jìn)一步提升模型的性能。在VoxCeleb上的實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有模型相比,該模型GACNPF實(shí)現(xiàn)了更低的錯(cuò)誤率和時(shí)間復(fù)雜度;更重要的是,該模型具有很好的靈活性,能夠融合任意多種特征,且可被應(yīng)用于其他基于預(yù)訓(xùn)練特征提取的分類任務(wù)。
關(guān)鍵詞:說話人驗(yàn)證;圖神經(jīng)網(wǎng)絡(luò);預(yù)訓(xùn)練;特征融合
中圖分類號(hào):TP391?? 文獻(xiàn)標(biāo)志碼:A??? 文章編號(hào):1001-3695(2023)12-024-3678-05doi: 10.19734/j.issn.1001-3695.2022.09.0544
Speaker verification based on graph neural networks and multifeature fusion
Abstract:Recent research shows that features extracted from pretrained models trained on large unlabeled speech samples have excelled in SV tasks. However, the existing models can not effectively optimize and aggregate framelevel features by using the topological structure characteristics between framelevel features, and the high network complexity is not conducive to realtime performance. At the same time, the existing models can not make full use of complementarity between multiple input features to further improve the performance of the model. To this end, on the one hand, this paper introduced graph neural networks to optimize framelevel features by using the topological structure between framelevel features. On the other hand, it constructed a multifeature fusion mechanism based on multiple losses to make full use of the complementarity between different features to further improve the performance of the model. Experimental results on VoxCeleb show that the proposed model GACNPF achieves lower error rates and time complexity compared to existing models. More importantly, the model has good flexibility. It can fuse any kind of features, and it can apply to other classification tasks based on pretrained feature extraction.
Key words:speaker verification(SV); graph neural network; pretraining; feature fusion
0 引言
開放集說話人驗(yàn)證(SV)是在測(cè)試說話人語音不在訓(xùn)練集中的情況下,驗(yàn)證測(cè)試說話人是否與注冊(cè)說話人為同一個(gè)人。本文研究?jī)?nèi)容無關(guān)的開放集說話人驗(yàn)證方法。
近年來,基于深度學(xué)習(xí)的SV模型相較于傳統(tǒng)基于機(jī)器學(xué)習(xí)的SV模型,如ivector[1],性能有了較大的提升。其中,xvector模型[2]是最早提出的基于深度學(xué)習(xí)的SV模型。它利用時(shí)延神經(jīng)網(wǎng)絡(luò)(timedelay neural Network,TDNN)和統(tǒng)計(jì)池化層聚合每段音頻信號(hào)的輸出特征,從而達(dá)到了較高的識(shí)別準(zhǔn)確率。為了進(jìn)一步提升特征的聚合能力,研究者將特征擠壓與激勵(lì)模塊、Res2Net結(jié)構(gòu)、MFA等引入TDNN[3, 4]。另外,將卷積層與Transformer結(jié)合的Conformer結(jié)構(gòu)也在SV任務(wù)上有很好的表現(xiàn)[5]。除此以外,已經(jīng)成功應(yīng)用于計(jì)算機(jī)視覺的深度殘差網(wǎng)絡(luò) (residual network,ResNet)[6]及其變體[7, 8]也被應(yīng)用于SV任務(wù)。研究表明,在從幀級(jí)的特征向句子級(jí)的特征聚合的過程中,通過引入自注意力池化(selfattention pooling,SAP)[9]、mSAP[10]、注意力統(tǒng)計(jì)池化(attentive statistics pooling,ASP)[11]、多頭自注意力池化[12]、序列化多層多頭注意力[13]等可進(jìn)一步提升模型的性能。
以上模型均采用手工特征,如梅爾倒譜系數(shù)(Melfrequency cepstral coefficients,MFCCs),作為模型的輸入。近期,隨著神經(jīng)網(wǎng)絡(luò)規(guī)模和訓(xùn)練樣本規(guī)模的大幅提升,利用海量無標(biāo)簽數(shù)據(jù)通過自監(jiān)督學(xué)習(xí)(selfsupervised learning,SSL)構(gòu)造的音頻特征提取模型[14~16]體現(xiàn)出比傳統(tǒng)手工特征提取方法更好的泛化能力,并被應(yīng)用于包括SV在內(nèi)的各種語音信號(hào)處理任務(wù)。
盡管引入基于SSL的特征提取模型可有效提升SV模型的性能,然而還存在如下問題:a)SSL模型提取的特征維度過大不利于后續(xù)分類模型的訓(xùn)練;b)為了適應(yīng)輸入特征的高維度,分類模型必須具備較深的結(jié)構(gòu),這進(jìn)一步加大了模型的復(fù)雜度;c)音頻幀之間的拓?fù)浣Y(jié)構(gòu)特性沒有得到充分的利用,且傳統(tǒng)卷積結(jié)構(gòu)受到感受野的限制,可能造成對(duì)時(shí)間間隔較遠(yuǎn)信息的忽略,不利于分類任務(wù)的實(shí)施;d)針對(duì)多特征輸入,簡(jiǎn)單的融合方式,比如求和、拼接等,無法充分利用特征的互補(bǔ)性,不能最大限度提升模型的性能。
近期,研究者將圖神經(jīng)網(wǎng)絡(luò)引入聲紋識(shí)別相關(guān)任務(wù),文獻(xiàn)[17,18]使用圖注意力網(wǎng)絡(luò)(graph attention network,GAT)[19]實(shí)現(xiàn)段級(jí)別或幀級(jí)別特征的聚合。文獻(xiàn)[18]使用圖池化進(jìn)一步對(duì)特征進(jìn)行篩選。然而,僅使用GAT無法像基于頻域的圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)[20]那樣利用鄰接矩陣包含的拓?fù)湫畔?duì)節(jié)點(diǎn)特征進(jìn)行優(yōu)化,不利于提取語音長時(shí)時(shí)序特性。
考慮到基于海量無標(biāo)簽數(shù)據(jù)訓(xùn)練的WavLM模型[21]在各種語音分類任務(wù)中的突出表現(xiàn),本文采用WavLM模型提取的特征作為模型輸入,分別在特征提取、特征優(yōu)化以及多特征融合三個(gè)方面進(jìn)行了如下改進(jìn),以提升本文模型(GACNPF)的性能。
a)特征提取階段。為了利用不同特征在獲取聲紋特性方面的優(yōu)勢(shì),同時(shí)兼顧模型的復(fù)雜性,采用WavLM Base+第四和第五層提取的特征作為本文模型的輸入。
b)特征優(yōu)化階段。針對(duì)傳統(tǒng)網(wǎng)絡(luò)無法充分利用時(shí)間尺度上特征間的拓?fù)潢P(guān)系以優(yōu)化特征的問題,構(gòu)造由nGAT、GCN,以及圖池化層組成的特征優(yōu)化模塊GACNP。首先,GAT層可充分聚合當(dāng)前節(jié)點(diǎn)的鄰接節(jié)點(diǎn)包含的上下文信息對(duì)當(dāng)前節(jié)點(diǎn)特征進(jìn)行全局優(yōu)化,同時(shí)本文將原始GAT中激活函數(shù)之后的softmax層刪除,并在激活函數(shù)之前加入歸一化層構(gòu)造nGAT以提升模型收斂速度;其次,在GAT層之后引入GCN層,借助鄰接矩陣包含的拓?fù)湫畔?duì)節(jié)點(diǎn)特征進(jìn)行進(jìn)一步優(yōu)化;最后,為了降低語音片段所包含的靜音幀或噪聲片段對(duì)特征提取的影響,借助圖池化對(duì)GCN輸出的節(jié)點(diǎn)進(jìn)行篩選。
c)多特征融合階段。為了充分利用不同的輸入特征在表現(xiàn)語音所包含的聲紋信息中的互補(bǔ)性,本文引入基于不同特征以及融合特征的多損失融合的訓(xùn)練方法,以提升模型的訓(xùn)練性能。
1 算法模型
如圖1所示,本文提出的說話人驗(yàn)證模型GACNPF由特征提取模塊、基于GACNP的特征優(yōu)化模塊以及多特征融合模塊三個(gè)模塊組成。
1.1 特征提取
為了保證模型的泛化能力,直接采用文獻(xiàn)[21]提出的經(jīng)過預(yù)訓(xùn)練的WavLM模型作為特征提取模型。根據(jù)預(yù)訓(xùn)練數(shù)據(jù)量的不同以及模型規(guī)模的不同,WavLM模型可分為WavLM Base、WavLM Base+和WavLM Large三種。本文選用了WavLM Base+模型。此模型包含12個(gè)編碼器輸出層,其輸出特征維度為768維。文獻(xiàn)[21]將以上12層的輸出加權(quán)求和,作為分類器的輸入,并提供了在SV任務(wù)中編碼器輸出的12層特征各自所占的權(quán)重,證明了中下層的特征對(duì)聲紋任務(wù)更有效。與文獻(xiàn)[12]不同的是,為了降低訓(xùn)練的難度和時(shí)間復(fù)雜度,進(jìn)一步簡(jiǎn)化實(shí)驗(yàn)設(shè)置,本文選取權(quán)重最大的第四、五層特征進(jìn)行分析,既減少冗余特征,又考慮不同層之間特征的互補(bǔ)性。受實(shí)驗(yàn)設(shè)備的限制,將預(yù)訓(xùn)練模型作為特征提取器,其參數(shù)在整個(gè)模型訓(xùn)練過程中固定不變,模型的訓(xùn)練只針對(duì)后續(xù)分類模型展開。
1.2 基于GACNP的特征優(yōu)化
1.2.1 圖的構(gòu)造和稀疏化
本文模型在構(gòu)造圖時(shí),節(jié)點(diǎn)對(duì)應(yīng)幀,節(jié)點(diǎn)特征為采用Wav
1.2.2 基于GACNP的節(jié)點(diǎn)特征優(yōu)化
為了充分利用由幀級(jí)特征構(gòu)造的圖中所有節(jié)點(diǎn)的信息及其拓?fù)浣Y(jié)構(gòu)特性對(duì)幀級(jí)特征進(jìn)行優(yōu)化和篩選,本文構(gòu)造了如圖1所示的GACNP節(jié)點(diǎn)特征優(yōu)化模塊,其由一層nGAT、一層GCN以及圖池化層所構(gòu)成,優(yōu)勢(shì)體現(xiàn)在如下幾個(gè)方面:a)作為典型的空域圖神經(jīng)網(wǎng)絡(luò),GAT可利用圖中所有節(jié)點(diǎn)的特征構(gòu)造注意力系數(shù)矩陣以便對(duì)節(jié)點(diǎn)特征進(jìn)行全局優(yōu)化;b)在傳統(tǒng)GAT(圖2)結(jié)構(gòu)的基礎(chǔ)上刪除激活函數(shù)之后的softmax層,并在激活函數(shù)之前加入歸一化層,構(gòu)造了如圖3所示的nGAT結(jié)構(gòu),這一改進(jìn)有助于提升模型的訓(xùn)練效率;c)GCN(圖4)的引入可利于圖的鄰接矩陣所表現(xiàn)的拓?fù)浣Y(jié)構(gòu)特性對(duì)節(jié)點(diǎn)特征進(jìn)行二次優(yōu)化;d)與兩層GAT或兩層GCN構(gòu)成的模塊相比,GAT與GCN的結(jié)合可以有效避免過平滑問題;e)如圖5所示的圖池化的引入可以在時(shí)間維度上進(jìn)行特征的篩選,選出與SV任務(wù)高度相關(guān)的節(jié)點(diǎn),以降低語音片段中所包含的靜音幀和噪聲幀對(duì)模型性能的影響。
應(yīng)于特征向量ht∈HAC的得分,記為yt;然后,對(duì)yt(t=1,2,…,T)進(jìn)行降序排列并保留得分最高的前T′個(gè)節(jié)點(diǎn);最后,利用各保留節(jié)點(diǎn)對(duì)應(yīng)的得分對(duì)其加權(quán)獲得經(jīng)篩選后的節(jié)點(diǎn)特征,所構(gòu)成的特征矩陣記為HACP∈Euclid ExtraaBpT′×F2。注意,算法1中·表示向量點(diǎn)乘,⊙表示元素級(jí)別的乘法。
GACNP模塊的算法流程如算法1所示。
算法1 GACNP算法流程
1.3 多特征融合
當(dāng)輸入為提取的第四層特征時(shí),構(gòu)造一個(gè)batch內(nèi)所有說話人語音之間的相似度矩陣,記為S(1)={S(1)(i1,i2)|i1,i2=1,2,…,B/2},其中S(1)(i1,i2)為兩個(gè)說話人i1和i2語音之間的相似度,可由式(2)獲得,其中,w>0和b為可學(xué)習(xí)的參數(shù):
S(1)(i1,i2)=w·cos(x(1)i1,1,x(1)i2,2)+b(2)
因此基于第四層特征的損失函數(shù)記為Euclid Math OneLAp1,如式(3)所示。
同理,可以得到相同batch中基于提取的第五層特征和融合特征的損失,分別記為Euclid Math OneLAp2和Euclid Math OneLAp3。最終,如式(4)所示,整個(gè)模型的融合損失函數(shù)Euclid Math OneLAp,可由三個(gè)損失的加權(quán)求和獲得,即:
Euclid Math OneLAp=λ1×Euclid Math OneLAp1+λ2×Euclid Math OneLAp2+λ3×Euclid Math OneLAp3(4)
其中:λ1和λ2分別對(duì)兩個(gè)局部特征的損失加權(quán),作用是為了保留局部特征的特性;λ3是對(duì)融合特征的損失加權(quán),目的是提升特征融合的性能,滿足λ1+λ2+λ3=1。設(shè)置這三個(gè)權(quán)重為動(dòng)態(tài)權(quán)重并經(jīng)過網(wǎng)絡(luò)的學(xué)習(xí)觀察權(quán)重的趨勢(shì),以此為依據(jù)將這三個(gè)權(quán)重固定為λ1=0.1,λ2=0.1,λ3=0.8,此時(shí)模型可以獲得最好的性能。
2 實(shí)驗(yàn)
2.1 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)采用VoxCeleb2[22]的開發(fā)集為訓(xùn)練集,并采用VoxCeleb1[23]提供的三個(gè)測(cè)試集(O,E,H)為測(cè)試集。因此,訓(xùn)練集和測(cè)試集之間不存在說話人重疊,數(shù)據(jù)集詳細(xì)信息如表1所示。其中,VoxCeleb1O是VoxCeleb1的原始測(cè)試集;VoxCeleb1E是對(duì)原始測(cè)試集的擴(kuò)展,使用整個(gè)VoxCeleb1(包含訓(xùn)練集與測(cè)試集)對(duì)模型評(píng)估;VoxCeleb1H是最具有挑戰(zhàn)性的,其注冊(cè)說話人和測(cè)試說話人具有相同的性別、國籍以及身份。
實(shí)驗(yàn)采用等錯(cuò)誤率(equal error rate,EER)和最小歸一化檢測(cè)代價(jià)函數(shù)(minimum of normalized detection cost function,minDCF)衡量模型性能。在minDCF中,錯(cuò)誤接受一個(gè)冒認(rèn)者和拒絕一個(gè)真實(shí)說話人的代價(jià)均設(shè)為1,即CFA=CFR=1,冒認(rèn)者出現(xiàn)的先驗(yàn)概率設(shè)為P=0.05。
2.2 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)采用的硬件環(huán)境為包含兩塊NVIDIA RTX 3090Ti顯卡的戴爾工作站,編程采用PyTorch架構(gòu)。
在訓(xùn)練過程中輸入音頻的長度為3 s,采樣率為16 kHz,batch size和初始學(xué)習(xí)率分別取100和0.000 1,將原始的音頻直接輸入WavLM base+模型提取特征。采用Adam優(yōu)化器,使學(xué)習(xí)率每5個(gè)epoch降至其0.95倍。在對(duì)鄰接矩陣進(jìn)行稀疏化時(shí)參數(shù)r%設(shè)為50%。模型所有的dropout層中隨機(jī)丟棄的節(jié)點(diǎn)比例都設(shè)置為0.2;圖池化層中的topk算法保留節(jié)點(diǎn)比例為0.8,最終獲得的融合說話人嵌入特征維度為256。
在測(cè)試的過程中使用測(cè)試時(shí)間增強(qiáng)策略(test time augmentation,TTA)[23]來提升測(cè)試性能。測(cè)試過程中,以負(fù)距離度量樣本間的相似度。傳統(tǒng)的測(cè)試方式,隨機(jī)在測(cè)試音頻上截取一段音頻測(cè)試。TTA的具體過程為:對(duì)每一個(gè)測(cè)試音頻進(jìn)行隨機(jī)采樣,隨機(jī)采樣若干段可能存在重疊的固定長度的音頻,每段都代表這個(gè)測(cè)試音頻計(jì)算相似度,最后將所有的得分求平均得到最終的相似度得分,這樣可以避免在測(cè)試的過程中采樣到測(cè)試音頻信息量比較少的部分,有效地進(jìn)行測(cè)試數(shù)據(jù)的增強(qiáng)。在本文的實(shí)驗(yàn)中,隨機(jī)采樣的長度設(shè)置為4 s,段數(shù)設(shè)置為10。
為了驗(yàn)證本文所使用的測(cè)試方法TTA的作用,圖6和7分別展示了測(cè)試集中一對(duì)正樣本和一對(duì)負(fù)樣本的梅爾譜圖,針對(duì)兩對(duì)樣本使用傳統(tǒng)的測(cè)試方式和TTA的測(cè)試方式樣本間的負(fù)距離如表2所示。圖6的兩條音頻來自同一說話人id10209,但是除了說話人自身外,還存在紅框中所示的另一說話人的背景聲。使用傳統(tǒng)的測(cè)試方式,隨機(jī)在測(cè)試音頻上截取一段音頻測(cè)試,當(dāng)選取的片段正好包括這些噪聲時(shí),會(huì)減小音頻之間的相似度,若判斷的閾值選取在-0.832~-0.468,會(huì)引起誤判。圖7的兩條音頻來自兩個(gè)不同的說話人,但是存在紅框中所示的靜音片段。使用傳統(tǒng)的測(cè)試方式若選取的音頻片段包含較多靜音片段時(shí),會(huì)增加兩段音頻之間的相似度,若判斷的閾值選取在-0.912~-1.246,會(huì)引起誤判。綜上所述,TTA測(cè)試方式有助于緩解噪聲或者靜音片段帶來的測(cè)試誤差。
2.3 實(shí)驗(yàn)結(jié)果
該部分首先介紹了基線系統(tǒng);其次,考慮到多特征提取、多損失融合中權(quán)重的選擇和圖池化層保留節(jié)點(diǎn)的比例可能對(duì)模型的性能造成影響,對(duì)其進(jìn)行了實(shí)驗(yàn)研究;再次,進(jìn)行了消融實(shí)驗(yàn)研究;最后,對(duì)本文算法和基線系統(tǒng)在識(shí)別準(zhǔn)確率和時(shí)間復(fù)雜度兩方面以及不同測(cè)試方式進(jìn)行了對(duì)比研究。
2.3.1 基線模型
為了驗(yàn)證本文SV模型相較于傳統(tǒng)模型在識(shí)別準(zhǔn)確率和算法復(fù)雜度方面的優(yōu)勢(shì),實(shí)驗(yàn)涉及以下三類基線模型:
a)SV任務(wù)中的經(jīng)典模型,包括專為預(yù)訓(xùn)練模型提供分類模型的基準(zhǔn)SUPERB[24]所列出的SV任務(wù)的官方下游模型xvector[2]和在SV任務(wù)上有較好表現(xiàn)的ResNet34L模型[8]。實(shí)驗(yàn)中,考慮到預(yù)訓(xùn)練模型輸出特征維度較大,為768維,受實(shí)驗(yàn)設(shè)備的限制,在輸入ResNet34L前對(duì)特征采用全連接層降維到256維。
b)基于注意力機(jī)制的模型,即對(duì)預(yù)訓(xùn)練模型提取出的特征直接使用注意力機(jī)制以及池化操作得到說話人嵌入,包括SAP[9]和ASP[11]注意力機(jī)制。
c)基于圖神經(jīng)網(wǎng)絡(luò)的模型,采用文獻(xiàn)[18]提出的GAT與圖池化的模型。
2.3.2 多特征的提取與多損失的動(dòng)態(tài)融合
文獻(xiàn)[21]采用SUPERB基準(zhǔn)[24]提出的對(duì)預(yù)訓(xùn)練模型的各層輸出的特征進(jìn)行加權(quán)求和實(shí)現(xiàn)融合,達(dá)到了較好的實(shí)驗(yàn)結(jié)果。然而,這不可避免地增加了模型訓(xùn)練的時(shí)間復(fù)雜度。本文通過實(shí)驗(yàn)研究發(fā)現(xiàn)WavLM Base+模型的第四、五兩層的輸出在SV任務(wù)中表現(xiàn)突出。表3比較了當(dāng)采用xvector為分類模型時(shí),在對(duì)WavLM Base+的所有層的輸出進(jìn)行加權(quán)融合以及僅對(duì)第四、五層的輸出進(jìn)行融合所達(dá)到的SV識(shí)別準(zhǔn)確率的結(jié)果。可以看出僅第四、五層輸出的融合效果明顯優(yōu)于對(duì)各層輸出進(jìn)行融合的效果。因此,本文模型采用WavLM Base+模型的第四、五層的輸出作為輸入特征。
為了對(duì)基于不同特征構(gòu)造的損失進(jìn)行更有效的融合以提升模型的性能,實(shí)驗(yàn)構(gòu)造了如圖1所示的動(dòng)態(tài)權(quán)重獲取模型。圖8為不同權(quán)重隨迭代次數(shù)的變化趨勢(shì)??梢钥闯?,三個(gè)權(quán)值初始化值一樣,網(wǎng)絡(luò)傾向于增加融合特征的權(quán)重λ3的值,并降低局部特征對(duì)應(yīng)權(quán)重λ1和λ2的值以實(shí)現(xiàn)更好的模型性能。為此,本文在實(shí)驗(yàn)中選取λ1=0.1,λ2=0.1,λ3=0.8進(jìn)行多損失融合,并且此后的實(shí)驗(yàn)結(jié)果均是在此權(quán)重配比下得到的。
2.3.3 圖池化層保留節(jié)點(diǎn)比例對(duì)模型性能的影響
為了研究圖池化層保留節(jié)點(diǎn)比例對(duì)模型性能的影響,以VoxCeleb1O測(cè)試集為例比較了在不同節(jié)點(diǎn)保留比例下模型所獲得的EER情況。結(jié)果如圖9所示,考慮到EER指標(biāo)是越小越好,因此將保留比例取值為0.8,使得模型達(dá)到最優(yōu)的結(jié)果。
2.3.4 消融實(shí)驗(yàn)
為證明本文所提出的改進(jìn)部分(nGAT、GCN、圖池化pool以及多損失Mloss)對(duì)模型性能提升的作用,進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示,表中黑體數(shù)字為所在列的最優(yōu)值。表4第1~4行列出了缺少其中任一模塊條件下,模型在三個(gè)測(cè)試集上得到的EER和minDCF。其中,對(duì)Mloss的消融是僅采用融合特征的損失Euclid Math OneLAp3進(jìn)行模型訓(xùn)練時(shí)獲得的??梢钥闯?,總體上,所提GACNP模型中減少任意一改進(jìn)部分都會(huì)造成模型性能的下降。GCN模塊雖然在VoxCeleb1E測(cè)試集上表現(xiàn)出輕微異常,但在其余兩個(gè)測(cè)試集上均對(duì)模型性能的提升有幫助,特別是在最具有挑戰(zhàn)性的測(cè)試集VoxCeleb1H上對(duì)性能的提升幅度比較明顯。這表明模型各部分改進(jìn)是合理的、有效的。另外,為了證明特征之間的互補(bǔ)性,表4的第5、6行分別列出了只使用WavLM編碼器輸出的第四、五層特征(分別記為X(4)和X(5))的情況下模型的性能??梢钥闯?,在三個(gè)測(cè)試集上,本文模型均取得了比使用一種特征時(shí)的模型更好的性能。這表明,所采用的兩種特征在SV任務(wù)中具有很好的互補(bǔ)性,并且本文提出的特征融合方法可以充分利用這一互補(bǔ)性。
2.3.5 模型性能對(duì)比
為了驗(yàn)證本文SV模型相較于基線模型在識(shí)別準(zhǔn)確率和時(shí)間復(fù)雜度方面的優(yōu)勢(shì),本實(shí)驗(yàn)在三個(gè)測(cè)試集上對(duì)模型的性能進(jìn)行了比較。
a)識(shí)別準(zhǔn)確率的對(duì)比。
結(jié)果如表5所示,其中黑體數(shù)字為最優(yōu)值。可以看出,在三個(gè)測(cè)試數(shù)據(jù)集上,兩種衡量指標(biāo)下本文模型均優(yōu)于所有的基線模型。其中,在O、E和H上EER相較于WavLM Base+中給定的官方下游模型xvector分別降低了24.9%、22.6%和26.1%,而minDCF相較于xvector分別降低了28.3%、26.9%和28.5%。除此以外,相較于SV任務(wù)中效果較好的ResNet34L模型以及SAP、ASP兩種基于注意力機(jī)制的模型也有較大的性能提升。相較于結(jié)合GAT和圖池化的圖神經(jīng)網(wǎng)絡(luò)模型[18],本文模型實(shí)現(xiàn)了更高的識(shí)別準(zhǔn)確率。
相較于文獻(xiàn)[18]提出的結(jié)合GAT和圖池化網(wǎng)絡(luò)的SV模型,本文模型性能提升的主要原因包括采用了基于GACNP的節(jié)點(diǎn)特征優(yōu)化以及基于多損失融合的分類方法兩個(gè)方面。為了進(jìn)一步驗(yàn)證GACNP中結(jié)合nGAT和GCN的節(jié)點(diǎn)特征優(yōu)化方法的有效性,表6比較了在相同特征輸入條件下,本文模型分別采用兩層GCN、兩層nGAT以及nGAT和GCN融合進(jìn)行節(jié)點(diǎn)特征優(yōu)化時(shí)所得的SV性能,其中黑體數(shù)字為最優(yōu)值??梢钥闯觯疚牟捎没趎GAT和GCN融合的GACNP特征優(yōu)化的模型性能最優(yōu)??赡艿脑蛴蠫CN的引入可充分利用節(jié)點(diǎn)間的拓?fù)浣Y(jié)構(gòu)對(duì)特征實(shí)現(xiàn)優(yōu)化,并且nGAT與GCN的結(jié)合一定程度上緩解了多層圖神經(jīng)網(wǎng)絡(luò)帶來的過平滑問題,以此提升模型的性能。
b)訓(xùn)練時(shí)間復(fù)雜度的對(duì)比。
為了驗(yàn)證本文模型在訓(xùn)練效率方面的優(yōu)勢(shì),圖10對(duì)比了不同模型的訓(xùn)練時(shí)間復(fù)雜度。其中圖10的第1列為對(duì)WavLM Base+模型所有層輸出進(jìn)行加權(quán)融合后采用xvector分類器時(shí)模型的訓(xùn)練時(shí)間復(fù)雜度;圖10的第2~6列為對(duì)WavLM Base+模型的第四、五層輸出進(jìn)行相加融合的結(jié)果作為特征,并采用相應(yīng)文獻(xiàn)提出的分類器進(jìn)行分類條件下模型的訓(xùn)練時(shí)間復(fù)雜度;圖10中第7列為本文模型將nGAT替換為GAT條件下模型的訓(xùn)練時(shí)間復(fù)雜度。
實(shí)驗(yàn)結(jié)果表明:(a)在采用相同分類器條件下,特征的選擇可大幅度降低模型的訓(xùn)練時(shí)間復(fù)雜度;(b)在輸入特征一致的條件下,本文模型取得了比所有基線系統(tǒng)更低的時(shí)間復(fù)雜度;(c)通過對(duì)比GACNPF_GAT與GACNPF模型的性能可以看出,nGAT的引入可有效降低模型訓(xùn)練的時(shí)間復(fù)雜度。
c)測(cè)試方法性能對(duì)比。
為了驗(yàn)證本文所使用的TTA測(cè)試方法的優(yōu)勢(shì),在VoxCeleb1O測(cè)試集上比較了TTA測(cè)試方法和傳統(tǒng)測(cè)試方法下獲得的EER。使用TTA測(cè)試得到的EER為2.831,而使用簡(jiǎn)單的測(cè)試方式得到的EER為3.743。使用TTA測(cè)試方式的EER明顯低于使用簡(jiǎn)單的測(cè)試方式得到的EER。這表明TTA與傳統(tǒng)測(cè)試方法相比具有明顯的優(yōu)勢(shì)。
3 結(jié)束語
本文提出了一種基于圖神經(jīng)網(wǎng)絡(luò)與多特征融合的說話人驗(yàn)證模型GACNPF。一方面,圖神經(jīng)網(wǎng)絡(luò)的引入可充分利用幀之間的上下文信息對(duì)幀級(jí)特征進(jìn)行優(yōu)化,同時(shí)可有效降低模型訓(xùn)練的時(shí)間復(fù)雜度;另一方面,多特征的融合有利于提升語音特征的表征能力,因此可進(jìn)一步提升模型的性能。模型通過改進(jìn)并結(jié)合GCN、GAT、以及圖池化的優(yōu)勢(shì)提升了識(shí)別性能和訓(xùn)練效率。該模型可與各種特征提取預(yù)訓(xùn)練模型進(jìn)行結(jié)合實(shí)現(xiàn)更高的SV識(shí)別準(zhǔn)確率,同時(shí)它具有很好的靈活性,可融合任意多種特征以進(jìn)一步提升模型的性能。該模型還可被擴(kuò)展到基于多模態(tài)特征融合的分類任務(wù)。
參考文獻(xiàn):
[1]Dehak N P,Kenny J,Dehak R,et al. Frontend factor analysis for speaker verification [J]. IEEE Trans on Audio,Speech,and Language Processing,2010,19(4): 788-798.
[2]Snyder D,GarciaRomero D,Sell G,et al. Xvectors: robust DNN embeddings for speaker recognition [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2018: 5329-5333.
[3]Desplanques B,Thienpondt J,Demuynck K. ECAPATDNN: emphasized channel attention,propagation and aggregation in TDNN based speaker verification [C]// Proc of Annual Conference of the International Speech Communication Association. 2020: 3830-3834.
[4]Liu Tianchi,Das R K,Lee K A,et al. MFA: TDNN with multiscale frequencychannel attention for textindependent speaker verification with short utterances [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2022: 7517-7521.
[5]Zhang Yang,Lyu Zhiqiang,Wu Haibin,et al. MFAconformer: multiscale feature aggregation conformer for automatic speaker verification [C]// Proc of Annual Conference of the International Speech Communication Association. 2022: 306-310.
[6]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016: 770-778.
[7]Chung J S,Huh J,Mun S. Delving into VoxCeleb: environment invariant speaker recognition[C]//Proc of Odyssey 2020 the Speaker and Language Recognition Workshop. 2020: 349-356.
[8]Chung J S,Huh J,Mun S,et al. In defence of metric learning for speaker recognition [C]// Proc of Annual Conference of the International Speech Communication Association. 2020: 2977-2981.
[9]Zhu Yingke,Ko T,Snyder D,et al. Self-attentive speaker embeddings for textindependent speaker verification [C]// Proc of Annual Conference of the International Speech Communication Association. 2018: 3573-3577.
[10]鄧飛,鄧力洪,胡文藝,等. 說話人身份識(shí)別深度網(wǎng)絡(luò)中的聚合模型研究[J]. 計(jì)算機(jī)應(yīng)用研究,2022,39(3): 721-725. (Deng Fei,Deng Lihong,Hu Wenyi,et al. Research on aggregation model in speaker recognition deep network[J]. Application Research of Computers,2022,39(3): 721-725.)
[11]Okabe K,Koshinaka T,Shinoda K. Attentive statistics pooling for deep speaker embedding [C]// Proc of Annual Conference of the International Speech Communication Association. 2018: 2252-2256.
[12]India M,Safari P,Hernando J. Double multihead attention for speaker verification [C]//Proc of IEEE International Conference on Acoustics Speech and Signal Processing. Piscataway,NJ: IEEE Press,2021: 6144-6148.
[13]Zhu Hongning,Lee K A,Li Haizhou. Serialized multilayer multihead attention for neural speaker embedding [C]// Proc of Annual Conference of the International Speech Communication Association. 2021: 106-110.
[14]Baevski A,Zhou Yuhao,Mohamed A,et al. wav2vec 2.0: a framework for selfsupervised learning of speech representations [J]. Advances in Neural Information Processing Systems,2020,33: 12449-12460.
[15]Hsu W N,Bolte B,Tsai Y H,et al. HuBERT: selfsupervised speech representation learning by masked prediction of hidden units [J]. IEEE/ACM Trans on Audio,Speech,and Language Processing,2021,29: 3451-3460.
[16]Wang Chengyi,Wu Yu,Qian Yao,et al. UniSpeech: unified speech representation learning with labeled and unlabeled data [C]// Proc of International Conference on Machine Learning. New York: ACM Press,2021: 10937-10947.
[17]Jung J,Heo H S,Yu H J,et al. Graph attention networks for speaker verification [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2021: 6149-6153.
[18]Shim H,Heo J,Park J,et al. Graph attentive feature aggregation for textindependent speaker verification [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2022: 7972-7976.
[19]Velickovi P,Cucurull G,Casanova A,et al. Graph attention networks [C]// Proc of the 6th International Conference on Learning Representations. 2018.
[20]Kipf T N,Welling M. Semisupervised classification with graph convolutional networks [C]// Proc of the 5th International Conference on Learning Representations. 2017.
[21]Chen Sanyuan,Wang Chengyi,Chen Zhengyang,et al. WavLM: largescale selfsupervised pretraining for full stack speech processing [J]. IEEE Journal of Selected Topics in Signal Processing,2022,16(6): 1505-1518.
[22]Chung J S,Nagrani A,Zisserman A. VoxCeleb2: deep speaker recognition [C]// Proc of Annual Conference of the International Speech Communication Association. 2018: 1086-1090.
[23]Nagrani A,Chung J S,Zisserman A. VoxCeleb: a largescale speaker identification dataset [C]// Proc of Annual Conference of the International Speech Communication Association. 2017: 2616-2620.
[24]Yang Shuwen,Chi Pohan,Chuang Yungsung,et al. SUPERB: speech processing universal performance benchmark [C]// Proc of Annual Conference of the International Speech Communication Association. 2021: 1194-1198.
[25]Tak H,Jung J,Patino J,et al. Endtoend spectrotemporal graph attention networks for speaker verification antispoofing and speech deepfake detection [C]// Proc of Automatic Speaker Verification and Spoofing Countermeasures Challenge. 2021.