鄧力洪,鄧 飛,張葛祥,楊 強(qiáng)
1.成都理工大學(xué) 計(jì)算機(jī)與網(wǎng)絡(luò)安全學(xué)院(牛津布魯克斯學(xué)院),成都 610059
2.成都理工大學(xué) 人工智能研究中心,成都 610059
3.成都信息工程大學(xué) 控制工程學(xué)院,成都 610059
說(shuō)話人識(shí)別任務(wù)旨在從音頻中獲取身份信息識(shí)別說(shuō)話人[1]。隨著語(yǔ)音指令的廣泛使用,語(yǔ)音驗(yàn)證成為保護(hù)用戶安全和隱私的必要安全措施。然而實(shí)際情況中,錄音的環(huán)境可能是嘈雜的如包含音樂(lè)、笑聲、聊天背景聲等,并且說(shuō)話人本身的因素如口音、情感、語(yǔ)調(diào)和說(shuō)話方式也會(huì)帶來(lái)影響,導(dǎo)致部分音頻可能不包含說(shuō)話人身份的鑒別信息,不能得到有效的、具有甄別性的特征。因此說(shuō)話人識(shí)別應(yīng)用于實(shí)際生活仍是一個(gè)非常困難的任務(wù)。如何構(gòu)建一種輕量的、可以從變長(zhǎng)的音頻中提取出具有甄別性的特征的說(shuō)話人識(shí)別系統(tǒng),是將說(shuō)話人識(shí)別應(yīng)用于實(shí)際的關(guān)鍵[2]。
在深度學(xué)習(xí)興起之前,傳統(tǒng)帶有概率線性判斷分析(PLDA)的i-vector 系統(tǒng)一直處于領(lǐng)先地位是說(shuō)話人識(shí)別的主要方法[3-4]。但隨著深度學(xué)習(xí)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)(DNN)給語(yǔ)音識(shí)別領(lǐng)域帶來(lái)了實(shí)質(zhì)性的改進(jìn)。相比于傳統(tǒng)的i-vector 系統(tǒng),DNN 架構(gòu)可以通過(guò)特征提取器(深度神經(jīng)網(wǎng)絡(luò))直接處理噪聲數(shù)據(jù)集進(jìn)行訓(xùn)練端到端的訓(xùn)練[5-7]。基于DNN的說(shuō)話人識(shí)別系統(tǒng)已經(jīng)取得了優(yōu)于i-vector 系統(tǒng)的性能,并以優(yōu)異的特征提取能力占據(jù)了主導(dǎo)地位。
在說(shuō)話人識(shí)別系統(tǒng)中,構(gòu)建一個(gè)有效的特征提取器(深度神經(jīng)網(wǎng)絡(luò))是準(zhǔn)確識(shí)別說(shuō)話人的關(guān)鍵因素?;贑NN的特征提取器由于具有更強(qiáng)的特征提取能力被廣泛地用作為說(shuō)話人識(shí)別系統(tǒng)的骨干神經(jīng)網(wǎng)絡(luò)?;诙S卷積的ResNet 通過(guò)向CNN 中引入殘差連接,可以在基本維度(深度和寬度)進(jìn)行設(shè)計(jì)以控制模型容納訓(xùn)練數(shù)據(jù)量的表示能力,并在各種任務(wù)中都表現(xiàn)出優(yōu)異的性能,是當(dāng)前最流行的特征提取器。然而,輕量的卷積神經(jīng)網(wǎng)絡(luò)特征提取能力非常弱,不能獲取具有區(qū)別性的幀級(jí)特征,導(dǎo)致系統(tǒng)的識(shí)別準(zhǔn)確率低無(wú)法應(yīng)用于實(shí)際生活。因此,為了獲得更強(qiáng)的特征提取能力來(lái)進(jìn)一步提升系統(tǒng)性能,目前許多方法都采用了更深、更寬、更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。如2019 年Zeinali 等人[8]構(gòu)建了256 層殘差網(wǎng)絡(luò)的說(shuō)話人識(shí)別系統(tǒng),2020年Jung等人[9]提出了直接使用原始音頻的信號(hào)作為輸入的RawNet,2021年Wang等人[10]提出了將CNN與Transform相結(jié)合為說(shuō)話人識(shí)別系統(tǒng)。在說(shuō)話人識(shí)別任務(wù)中,訓(xùn)練和測(cè)試條件往往是不匹配的,單純?cè)黾泳W(wǎng)絡(luò)的深度和寬度容易出現(xiàn)過(guò)擬合,從而削弱整個(gè)網(wǎng)絡(luò)的泛化能力。更深、更寬、更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)也導(dǎo)致模型的參數(shù)量和計(jì)算資源大幅增加。因此,構(gòu)建一種輕量的、特征提取能力強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò)是將說(shuō)話人識(shí)別系統(tǒng)應(yīng)用于實(shí)際的關(guān)鍵。
卷積神經(jīng)網(wǎng)絡(luò)也并非完美無(wú)缺,卷積運(yùn)算是采用固定大小的卷積核來(lái)捕獲音頻的時(shí)間和頻率信息,而卷積核的大小限制了語(yǔ)音特征的接受域,因此卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力也受到了限制,不能捕獲特征的全局信息。近年來(lái),隨著注意力機(jī)制在計(jì)算機(jī)視覺(jué)任務(wù)中表現(xiàn)出優(yōu)秀的性能,它也逐漸被引入到說(shuō)話人識(shí)別領(lǐng)域,并應(yīng)用到說(shuō)話人識(shí)別系統(tǒng)中。注意力機(jī)制有效地改善了卷積神經(jīng)網(wǎng)絡(luò)只能提取局部特征無(wú)法捕捉全局特征的缺點(diǎn),增強(qiáng)了卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力和泛化能力。它只會(huì)增加極少量的參數(shù),卻可以明顯地提升系統(tǒng)性能。Zhou等人[11]在ResNet中采用了壓縮激活注意力(squeeze-and-excitation attention,SE)來(lái)增強(qiáng)特征提取能力,這是說(shuō)話人識(shí)別任務(wù)首次引入注意力。SE注意力能夠捕獲通道之間的依賴關(guān)系并突出更重要的通道特征[12]。受到將計(jì)算機(jī)視覺(jué)中的卷積注意力模塊(convolutional block attention module,CBAM)[13]的啟發(fā)Sarthak等人[14]提出了tf-CBAM注意力,對(duì)特征的時(shí)間維度和頻率維度進(jìn)行強(qiáng)調(diào)。雖然這些注意力方法都增強(qiáng)了神經(jīng)網(wǎng)絡(luò)的特征提取能力,但都只通過(guò)使用池化操作進(jìn)行了簡(jiǎn)單的注意力學(xué)習(xí)強(qiáng)調(diào)了單一的特征維度忽略了其他特征維度,以及時(shí)間-頻率-通道維度的相互作用。同時(shí),池化操作也使得特征丟失了其中的說(shuō)話人身份信息。
基于上述問(wèn)題,本文將目標(biāo)檢測(cè)任務(wù)中的Res2Net引入到說(shuō)話人識(shí)別任務(wù)中,驗(yàn)證了它在說(shuō)話人識(shí)別任務(wù)中的有效性和魯棒性[15]。不同于目前大多數(shù)方法只能利用更深更寬的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提升特征提取能力,Res2Net采用了一種并行分支網(wǎng)絡(luò)結(jié)構(gòu)來(lái)增大感受野范圍,從而在不增加計(jì)算復(fù)雜度,擁有更少參數(shù)量的情況下獲得了更好的識(shí)別效果。然而,Res2Net 的網(wǎng)絡(luò)結(jié)構(gòu)只能獲取固定大小的感受野,不能獲取更大范圍的感受野,這也限制了其特征提取能力的提升。因此,本文在Res2Net的基礎(chǔ)上改進(jìn)提出FullRes2Net,相比于Res2Net它能夠產(chǎn)生更大的感受野,從而獲取更強(qiáng)的特征提取能力,可以應(yīng)對(duì)更加復(fù)雜的聲學(xué)環(huán)境和識(shí)別任務(wù)。在幾乎沒(méi)有增加參數(shù)量的情況下,性能提升了17%。為了解決現(xiàn)有注意力方法存在的問(wèn)題,更有效地提升卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力。本文提出了一種應(yīng)用于說(shuō)話人識(shí)別任務(wù)的注意力方法,混合時(shí)頻通道注意力(mixed timefrequency channel attention,MTFC)。它可以對(duì)音頻特征的時(shí)間、頻率、通道維度進(jìn)行交互,捕捉特征間的依賴,得到更多的注意信息和全局信息,從而有效增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力。為了證明所提出方法的有效性,本文分別進(jìn)行了不同的消融實(shí)驗(yàn),驗(yàn)證了Full-Res2Net 和混合時(shí)頻通道注意力的有效性。同時(shí),本文所構(gòu)建的基于混合時(shí)頻通道注意力和FullRes2Net的端到端說(shuō)話人識(shí)別系統(tǒng),也在多種實(shí)驗(yàn)設(shè)置中表現(xiàn)出明顯優(yōu)于目前先進(jìn)說(shuō)話人識(shí)別系統(tǒng)的性能。
這項(xiàng)工作的主要貢獻(xiàn)總結(jié)如下:
(1)本文將計(jì)算機(jī)視覺(jué)目標(biāo)檢測(cè)任務(wù)中的Res2Net引入到說(shuō)話人識(shí)別中,驗(yàn)證了它在說(shuō)話人識(shí)別任務(wù)中的有效性和魯棒性。它通過(guò)采用一種并行分支網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提升特征提取能力,但參數(shù)量更少。
(2)本文基于Res2Net改進(jìn)提出了FullRes2Net。相比于Res2Net,它擁有更大更多的感受野組合。在參數(shù)量幾乎沒(méi)有增加的情況下,擁有更強(qiáng)的多尺度特征提取能力。
(3)本文提出了混合時(shí)頻通道注意力。它可以在特征的時(shí)間、頻率、通道維度進(jìn)行交互,更有效地增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力。
(4)本文將FullRes2Net 和混合時(shí)頻通道注意力應(yīng)用于說(shuō)話人識(shí)別系統(tǒng),構(gòu)建了基于混合時(shí)頻通道注意力和FullRes2Net 的端到端說(shuō)話人識(shí)別系統(tǒng),并在不同的場(chǎng)景下進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明該算法的優(yōu)越性,是一種參數(shù)量更少、效率更高的端到端結(jié)構(gòu),適合在現(xiàn)實(shí)場(chǎng)景中的應(yīng)用。
通常說(shuō)話人識(shí)別任務(wù)可以分為閉集和開(kāi)集。對(duì)于閉集,所有測(cè)試說(shuō)話人身份都被登記在訓(xùn)練集中即測(cè)試集是訓(xùn)練集的子集,將測(cè)試話語(yǔ)分類是比較容易的。因此閉集可以很好地解決說(shuō)話人分類問(wèn)題。而在開(kāi)集中,測(cè)試集中的說(shuō)話人和訓(xùn)練集中的說(shuō)話人是相互獨(dú)立的,這使得說(shuō)話人識(shí)別更具有挑戰(zhàn)性,也更接近實(shí)踐。由于不可能將測(cè)試集中的語(yǔ)音分類為訓(xùn)練集中的已知的身份,需要將說(shuō)話人特征映射到一個(gè)判別空間。在這種情況下,開(kāi)集驗(yàn)證的本質(zhì)是一個(gè)度量學(xué)習(xí)問(wèn)題,其中的關(guān)鍵是學(xué)習(xí)到有區(qū)別的特征向量。
傳統(tǒng)i-vector說(shuō)話人識(shí)別系統(tǒng)中每個(gè)步驟都是在子任務(wù)上獨(dú)立訓(xùn)練的,不是聯(lián)合優(yōu)化的。另外的一些基于DNN的說(shuō)話人識(shí)別系統(tǒng)中需要額外的步驟來(lái)聚合幀級(jí)特征并執(zhí)行驗(yàn)證。本文將所有子任務(wù)整合到一起,實(shí)現(xiàn)閉集和開(kāi)集的統(tǒng)一端到端系統(tǒng),如圖1所示。其中任何類型的深度卷積網(wǎng)絡(luò)都可以作為特征提取器,如VGG、ResNet等。而本文改進(jìn)提出的FullRes2Net擁有更少的參數(shù)量更強(qiáng)的特征提取能力和更快的推理時(shí)間,因此使用FullRes2Net作為特征提取器的骨干網(wǎng)絡(luò)。它可以在更細(xì)粒的層次上獲得多種感受野的組合,從而獲得多種不同尺度組合的特征表達(dá),產(chǎn)生說(shuō)話人身份信息更豐富、更全面、更具區(qū)別性的幀級(jí)特征。同時(shí),為了強(qiáng)調(diào)特征信息,捕捉特征間的依賴,獲取全局信息增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力。本文構(gòu)建了混合時(shí)頻通道注意力(MTFC)?;旌蠒r(shí)頻通道注意力能夠插入任何地方,它可以增強(qiáng)網(wǎng)絡(luò)的特征表達(dá)能力。但基于注意力的卷積表明,并行化卷積層和注意力模塊是更有效地處理短期和長(zhǎng)期依賴的結(jié)構(gòu)。因此,本文將混合時(shí)頻通道注意力嵌入到FullRes2Net之中。
圖1 端到端說(shuō)話人識(shí)別系統(tǒng)結(jié)構(gòu)Fig.1 End-to-end speaker recognition system structure
基于混合時(shí)頻通道注意力和FullRes2Net的端到端說(shuō)話人識(shí)別系統(tǒng)由四部分組成:(1)特征提取網(wǎng)絡(luò),使用嵌入混合時(shí)頻通道注意力的FullRes2Net提取出更具區(qū)別性的幀級(jí)特征;(2)特征聚合,通過(guò)自適應(yīng)平均池化將變長(zhǎng)的幀級(jí)特征聚合為固定維度的話語(yǔ)級(jí)特征;(3)說(shuō)話人識(shí)別損失函數(shù),在訓(xùn)練時(shí)采用AM-softmax Loss以更準(zhǔn)確地對(duì)說(shuō)話人進(jìn)行分類;(4)相似性度量,在訓(xùn)練完成后用于進(jìn)行說(shuō)話人識(shí)別,通過(guò)計(jì)算一對(duì)話語(yǔ)級(jí)特征的距離以判斷這對(duì)音頻是否來(lái)自同一說(shuō)話人。
Res2Net 是一種應(yīng)用于目標(biāo)檢測(cè)中的網(wǎng)絡(luò)結(jié)構(gòu),旨在通過(guò)增加感受野的大小來(lái)提高卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力。Res2Net 是ResNet 的一種變體,它在繼承ResNet 優(yōu)點(diǎn)的同時(shí)也有新的特性。采用了一種并行分支網(wǎng)絡(luò)結(jié)構(gòu),并通過(guò)類似于層殘差的方式連接更小的卷積算子來(lái)實(shí)現(xiàn)。層殘差的連接方式使得Res2Net 擁有比ResNet更大的感受野和更多的感受野組合。而并行分支結(jié)構(gòu)則使得Res2Net的參數(shù)量比ResNet更少。圖2展示了ResNet殘差塊與Res2Net殘差塊的比較,其中⊕表示加法運(yùn)算。
圖2 ResNet殘差塊與Res2Net殘差塊Fig.2 ResNet residual block and Res2Net residual block
在ResNet殘差塊中,特征經(jīng)過(guò)卷積核大小為1×1的卷積過(guò)后,接著進(jìn)行一組卷積核大小為3×3的卷積。而在Res2Net模塊中,特征x∈RT×F×C在經(jīng)過(guò)卷積核大小為1×1 的卷積后被切分成s個(gè)特征子集xi∈RT×F×w,每個(gè)特征子集有w個(gè)通道(C=s×w)。因此,Res2Net的參數(shù)量也比ResNet 更少。在切分操作之后,每個(gè)特征子集xi(i∈{1,2,…,s})都有與之相對(duì)應(yīng)的一組3×3卷積記為Ci,輸出yi表示如公式(1)所示:
在圖2(b)所示的Res2Net 模塊中,當(dāng)Ci接收到前特征子集yi-1時(shí),前一個(gè)特征子集相當(dāng)于連續(xù)經(jīng)過(guò)了Ci和Ci-1的卷積運(yùn)算。因此,使得當(dāng)前特征子集擁有更大的感受野,獲得了多種感受野大小的組合。更大的感受野可以看到更多的相關(guān)音頻以及進(jìn)行更好的上下文分析。而不同的感受野組合則可以對(duì)特征局部細(xì)節(jié)進(jìn)行豐富。從而產(chǎn)生了更準(zhǔn)確、有效的特征,如公式(2)所示。最后,將所有的yi拼接起來(lái)作為輸出特征y。
然而,Res2Net 的網(wǎng)絡(luò)結(jié)構(gòu)只能獲取固定大小的感受野組合,不能獲取更大的感受野范圍,這也限制了它特征提取能力的提升。因此,本文改進(jìn)提出了FullRes2Net,結(jié)構(gòu)如圖3所示。
圖3 FullRes2Net blcok結(jié)構(gòu)Fig.3 FullRes2Net block structure
與Res2Net不同的是,F(xiàn)ullRes2Net的并行分支中每個(gè)特征子集都會(huì)融合之前所有特征子集的輸出再由自身的卷積算子進(jìn)行卷積同時(shí)傳給后面的特征子集。最后,再將所有的yi拼接起來(lái)作為輸出特征y,如公式(3)所示。通過(guò)這種方式,每個(gè)特征子集都會(huì)收到前面所有特征子集的輸出,使之前的每個(gè)特征子集的感受野不斷增大,從而可以提供更多特征中的說(shuō)話人身份信息,也獲得了更多的、更大的感受野組合,如公式(4)所示。因此,相比于Res2Net,F(xiàn)ullRes2Net 可以得到更多、更豐富的特征細(xì)節(jié)信息,更充分地挖掘音頻特征中的說(shuō)話人身份信息。FullRes2Net 也并沒(méi)有引入卷積運(yùn)算來(lái)增加網(wǎng)絡(luò)的深度與寬度,因此它只增加了一些推理時(shí)間。
如公式(5)所示它代表感受野的計(jì)算方式,其中RFi表示第i層的感受野,ki是第i層的卷積核大小,sj表示第j層的卷積步長(zhǎng)。假設(shè)經(jīng)過(guò)1×1 的卷積運(yùn)算后感受野為1,卷積步長(zhǎng)為1,可以根據(jù)公式推導(dǎo)出Res2Net、FullRes2Net中不同并行分支上的感受野大小,如公式(6)和公式(7)所示。從公式中可以明顯看出FullRes2Net擁有比Res2Net 更多、更大的感受野組合,這也使得FullRes2Net擁有比Res2Net更強(qiáng)的特征提取能力,可以應(yīng)對(duì)更復(fù)雜的聲學(xué)環(huán)境和說(shuō)話人識(shí)別任務(wù)。
雖然FullRes2Net 擁有更強(qiáng)的特征表達(dá)能力,但依然不能克服卷積運(yùn)算本身存在的缺陷。同時(shí),也為了解決目前注意力方法存在的問(wèn)題。本文設(shè)計(jì)了一種混合時(shí)頻通道注意力(MTFC)?;旌蠒r(shí)頻通道注意模塊可以將時(shí)頻信息和通道信息相互整合,從而分別產(chǎn)生相應(yīng)的時(shí)頻注意和通道注意。MTFC 注意力機(jī)制旨在關(guān)注時(shí)頻特征和通道特征中的重要區(qū)域,并從中獲取特征之間的依賴,得到取更多的注意信息,使得網(wǎng)絡(luò)能夠提取出判別性更強(qiáng)的幀級(jí)特征。
如圖4 所示,MTFC 注意力機(jī)制包含了兩種注意模塊,在特征提取器輸出的局部特征上捕捉特征之間的依賴性,繪制全局特征從而獲得更好的特征表示。使用x作為輸入特征,然后將這些特征送入時(shí)頻注意模塊和通道注意模塊分別產(chǎn)生一個(gè)二維時(shí)頻注意權(quán)重和一個(gè)與輸入特征同大小的全局特征。分別采用不同的方式進(jìn)行加權(quán),時(shí)頻注意通過(guò)乘法進(jìn)行加權(quán),它具有全局信息能突出時(shí)頻信息中更重要的區(qū)域。而通道注意通過(guò)求和進(jìn)行加權(quán),它模擬了特征映射之間的長(zhǎng)期依賴關(guān)系,有助于提高特征判別性。因此總的注意過(guò)程可以概括為:
圖4 混合時(shí)頻通道注意力Fig.4 Mixed time-frequency channel attention
其中,MC表示通道注意模塊,MTF表示時(shí)頻注意模塊。?表示乘法,⊕表示加法。在整個(gè)過(guò)程中,通道注意沿著時(shí)頻維度進(jìn)行傳播,而時(shí)頻注意沿著通道進(jìn)行傳播,y是最終的輸出結(jié)果。下面介紹每個(gè)注意模塊的詳細(xì)信息。
(1)時(shí)頻注意力
在計(jì)算機(jī)視覺(jué)中基于注意力的方法在建??臻g關(guān)系方面尤其有前景,注意力機(jī)制使模型能夠在識(shí)別過(guò)程中關(guān)注關(guān)鍵特征并抑制不重要的特征,捕捉特征的全局關(guān)系,從而增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的特征表達(dá)能力。同樣,注意力的方法也可以應(yīng)用于時(shí)頻域的建模。利用特征間的時(shí)頻關(guān)系生成時(shí)頻權(quán)重矩陣,權(quán)重矩陣的權(quán)重大小與相應(yīng)位置的頻率成正相關(guān)。為了使學(xué)習(xí)的卷積層更有競(jìng)爭(zhēng)力,本文采用softmax 函數(shù)生成相應(yīng)的權(quán)重矩陣而不是sigmod,因?yàn)閟oftmax 函數(shù)鼓勵(lì)不同的卷積層學(xué)習(xí)不同的特征,從而使模型更健壯[16]。根據(jù)生成的權(quán)重矩陣再重新調(diào)整原始特征圖上的激活幅度。通過(guò)這種方式,同一時(shí)頻位置的特征按相同的權(quán)重進(jìn)行縮放,不同時(shí)頻位置的特征按照不同權(quán)重進(jìn)行縮放。
如圖5 所示,給定一個(gè)特征輸入x∈RT×F×C,特征x經(jīng)過(guò)1×1的卷積操作后得到一個(gè)T×F大小的二維矩陣A。采用1×1 的卷積進(jìn)可以行通道信息的交互和降維同時(shí)也增加了卷積神經(jīng)網(wǎng)絡(luò)的非線性[17]。然后對(duì)矩陣A使用softmax函數(shù),為每個(gè)位置分配一個(gè)值表示該位置的重要性w(i,j),w∈RT×F。產(chǎn)生的權(quán)重矩陣再與原始輸入特征x相乘重新調(diào)整激活幅度,輸出特征x′∈RT×F×C。公式如下:
圖5 時(shí)頻注意力模塊Fig.5 Time-frequency attention module
其中,Ws∈R1×1×C表示1×1的卷積。
(2)通道注意力
整個(gè)模塊可以分為三部分:(1)背景建模,采用1×1的卷積后通過(guò)softmax 函數(shù)產(chǎn)生權(quán)重值,再加權(quán)映射得到全局特征。(2)特征變換,使用1×1的卷積進(jìn)行特征變換,捕獲通道依賴以及減少模型的參數(shù)量。(3)特征融合,采用加法的方式直接將全局特征融合到原始特征之中,如圖6所示。
圖6 通道注意力模塊Fig.6 Channel attention module
使用x∈RT×F×C表示輸入特征,為了能夠充分利用時(shí)頻信息,同樣采用1×1的卷積進(jìn)行通道信息的交互和降維[17],得到特征h∈RT×F×1,再使用softmax函數(shù)產(chǎn)生全局權(quán)重w∈RN×1(N=T×F),全局權(quán)重w與x相矩乘生成全局特征。這種方法將時(shí)頻信息聚集(通過(guò)全局權(quán)重對(duì)所有的時(shí)頻信息加權(quán))到通道信息之中,使全局特征充分地利用了時(shí)頻信息。全局特征經(jīng)過(guò)特征變換后使用softmax 函數(shù)產(chǎn)生通道權(quán)重,重新調(diào)整特征的通道維度再與輸入特征x相加,從而模擬了特征映射之間的長(zhǎng)期依賴關(guān)系,有助于提高特征判別性。其中δ(·)表示特征變換部分,結(jié)構(gòu)與SE 注意力類似用來(lái)減少網(wǎng)絡(luò)的參數(shù)同時(shí)捕獲通道依賴。在SE 注意力中,特征變換模塊通過(guò)全連接降維實(shí)現(xiàn),而參考文獻(xiàn)[17]實(shí)驗(yàn)表明,全連接捕獲通道依賴關(guān)系是低效且不必要的。而在參考文獻(xiàn)[17]中,使用一維卷積捕捉通道依賴,但卷積核大小依舊限制了覆蓋范圍并不能對(duì)所有的通道進(jìn)行運(yùn)算,所捕捉的通道依賴關(guān)系依舊是局部的。本文選擇使用1×1的二維卷積,它允許所有的通道特征進(jìn)行復(fù)雜的可學(xué)習(xí)的交互,可以更有效地捕捉通道間的依賴關(guān)系。
其中,r表示縮放系數(shù),Wk∈R1×1×C、W1∈R1×1×C/r、W2∈R1×1×C為1×1卷積操作,LN為層歸一化(LayerNorm)用來(lái)防止梯度消失以及加速網(wǎng)絡(luò)的收斂。將兩個(gè)注意模塊的輸出直接相加從而實(shí)現(xiàn)特征融合如公式(10)所示。不采用級(jí)聯(lián)操作,因?yàn)樾枰嗟拇鎯?chǔ)空間。MTFC注意模塊可以直接插入到卷積網(wǎng)絡(luò)結(jié)構(gòu)之中。且僅會(huì)增加少量的參數(shù),但卻能有效地增強(qiáng)特征表示。
實(shí)驗(yàn)的語(yǔ)音數(shù)據(jù)集采用的是近年來(lái)常用于說(shuō)話人識(shí)別任務(wù)的Voxceleb數(shù)據(jù)集[18-20]。Voxceleb是一個(gè)大型的不依賴于文本的說(shuō)話人識(shí)別數(shù)據(jù)集包含Voxceleb1數(shù)據(jù)集和Voxceleb2 數(shù)據(jù)集,Voxceleb2 包含了從YouTube視頻中提取的5 994個(gè)說(shuō)話人的100多萬(wàn)段音頻。平均時(shí)長(zhǎng)為7.8 s,來(lái)自不同的聲學(xué)環(huán)境,使說(shuō)話人的識(shí)別更具挑戰(zhàn)性。Voxceleb1包含了來(lái)自1 251個(gè)說(shuō)話者的100 000多段音頻。測(cè)試集分為Voxceleb1-O、Voxceleb1-E 和Voxceleb1-H 三種不同的測(cè)試集。Voxceleb1-O 是一個(gè)獨(dú)立于Voxceleb1的測(cè)試集包括40個(gè)發(fā)言人,與Voxceleb1中的發(fā)言人不重疊。Voxceleb1-E 測(cè)試集使用了整個(gè)Voxceleb1數(shù)據(jù)集,而Voxceleb1-H測(cè)試集是一個(gè)更特殊的測(cè)試集,這個(gè)測(cè)試集包含來(lái)自同一國(guó)籍和性別的樣本。Voxceleb2數(shù)據(jù)集是Voxceleb1數(shù)據(jù)集的擴(kuò)展版本,但是這兩個(gè)數(shù)據(jù)集是互斥的。如參考文獻(xiàn)[21]所述,Voxceleb2 在其注釋中包含一些缺陷,因此,不建議使用它來(lái)測(cè)試模型;然而,它被廣泛用于訓(xùn)練。相比之下,Voxceleb1是在極其嚴(yán)格的條件下收集的;因此,經(jīng)常在這個(gè)數(shù)據(jù)集上進(jìn)行測(cè)試。與大多數(shù)已有參考文獻(xiàn)相同,本文使用Voxceleb2進(jìn)行訓(xùn)練,將Voxceleb1作為測(cè)試集。
為了驗(yàn)證本文提出方法的有效性,實(shí)驗(yàn)采用與對(duì)比文獻(xiàn)[18-20]相同的樸素訓(xùn)練方法。首先將所有的音頻轉(zhuǎn)換為單通道,16位流16 kHz采樣率,然后對(duì)音頻數(shù)據(jù)進(jìn)行濾波(40組梅爾濾波器)、加窗(25 ms窗口重疊,步長(zhǎng)10 ms)、特征對(duì)齊,再在頻譜的每個(gè)頻域方向上進(jìn)行均值和方差歸一化(mean and variance normalization,MVN)生成Fbank特征,作為深度卷積神經(jīng)網(wǎng)絡(luò)的輸入。不進(jìn)行靜音檢測(cè)和語(yǔ)音增強(qiáng),后端也沒(méi)有復(fù)雜的處理。使用初始學(xué)習(xí)率為0.001的Adam優(yōu)化器進(jìn)行網(wǎng)絡(luò)參數(shù)優(yōu)化[22]。選取ThinResNet-50作為基線系統(tǒng),ThinResNet-50與標(biāo)準(zhǔn)ResNet-50 網(wǎng)絡(luò)結(jié)構(gòu)相同只是為了減少計(jì)算成本,每個(gè)殘差塊的通道數(shù)變?yōu)闃?biāo)準(zhǔn)網(wǎng)絡(luò)的1/4,本文引入的Res2Net 和改進(jìn)的FullRes2Net 結(jié)構(gòu)如表1 所示,其中T表示時(shí)間維度。
表1 網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Network structure
訓(xùn)練時(shí)采用的方式進(jìn)行分類訓(xùn)練。模型的損失函數(shù)采用margin=1,scale=15 的AM-softmax損失函數(shù)[23],相比于softmax 損失函數(shù)AM-softmax 通過(guò)在角空間中引入邊界提高了驗(yàn)證精度。計(jì)算公式如下:
其中,Li是將樣本正確分類的代價(jià),θy=arccos(wTx)指樣本特征和決策超平面(w)之間的角度,兩個(gè)向量都經(jīng)過(guò)L2標(biāo)準(zhǔn)化。因此盡可能使cosθyi-m大,其中m是角度邊界,從而使角最小化。超參數(shù)s控制損失函數(shù)的“溫度”,對(duì)分離良好的樣本產(chǎn)生更高的梯度并進(jìn)一步縮小類內(nèi)方差。
在模型訓(xùn)練好后使用測(cè)試集進(jìn)行開(kāi)集測(cè)試,測(cè)試集與訓(xùn)練集是完全脫離的。測(cè)試時(shí),從每個(gè)測(cè)試音頻中抽取10個(gè)3 s的片段作為樣本,然后送入系統(tǒng)中抽取每個(gè)片段的話語(yǔ)級(jí)特征并計(jì)算每對(duì)片段中所有組合(10×10=100)之間的距離,再將100個(gè)距離的平均值作為說(shuō)話人身份判別依據(jù),進(jìn)行說(shuō)話人身份識(shí)別。
為了客觀地評(píng)估不同聚合模型的性能,本文采用常用的等錯(cuò)誤率(equal error rate,EER)和最小檢測(cè)代價(jià)標(biāo)準(zhǔn)(minimum detection cost function 2010,DCF10)[24]作為系統(tǒng)性能的評(píng)價(jià)指標(biāo),其值越小代表性能越好。最小檢測(cè)代價(jià)函數(shù)計(jì)算公式為:
其中,CFR與CFA分別為錯(cuò)誤拒絕率EFR和錯(cuò)誤接收率EFA的懲罰系數(shù);Ptarget和1-Ptarget分別為真實(shí)說(shuō)話測(cè)試和冒充測(cè)試的先驗(yàn)概率,這里采用NIST SRE2010設(shè)定的參數(shù)CFA=1,CFR=1,Ptarget=0.01(DCF10)。DCF不僅考慮錯(cuò)誤拒絕和錯(cuò)誤接收不同的代價(jià),還充分考慮到測(cè)試情況的先驗(yàn)概率,因此在模型性能評(píng)價(jià)上MinDCF比EER更具參考價(jià)值。
為了驗(yàn)證本文所提出的FullRes2Net和混合時(shí)頻通道注意力的有效性,本文首先進(jìn)行兩組消融實(shí)驗(yàn)。表2顯示了在相同實(shí)驗(yàn)條件下(都采用樸素的訓(xùn)練方法)本文所改進(jìn)的FullRes2Net與其他網(wǎng)絡(luò)結(jié)構(gòu)在Voxceleb1-O測(cè)試集上的結(jié)果。從表中可以看出輕量結(jié)構(gòu)的ThinResNet-50表現(xiàn)出最差的性能EER/DCF 為5.04%/0.465 1,而在使用更深、更寬網(wǎng)絡(luò)結(jié)構(gòu)的ResNet-50 性能則有明顯的提升,但相應(yīng)的它的參數(shù)量和推理時(shí)間也成倍的增加,如表3 所示。將目標(biāo)檢測(cè)任務(wù)的Res2Net 引入說(shuō)話人識(shí)別任務(wù)中并進(jìn)行測(cè)試,可以看出Res2Net 取得了比ThinResNet-50 和ResNet-50 更低的EER/DCF 為3.32%/0.319 9。同時(shí)可以發(fā)現(xiàn),相比于ThinResNet-50,Res2Net參數(shù)量只增加了8.9×105推理時(shí)間只增加了18 ms,但遠(yuǎn)遠(yuǎn)低于ResNet-50,證明了Res2Net 是一種參數(shù)量更少特征提取能力更強(qiáng)的輕量網(wǎng)絡(luò)。而本文改進(jìn)提出的FullRes2Net 相比于Res2Net 則進(jìn)一步提升了系統(tǒng)的性能,取得了最低的EER/DCF 為2.75%/0.286 1,表明了FullRes2Net 擁有更強(qiáng)的特征提取能力,更有效地提取了特征中的說(shuō)話人身份信息,從而得到了更具區(qū)別性的幀級(jí)特征。從表3中也看出,F(xiàn)ullRes2Net相比于Res2Net參數(shù)量子只增加6×104推理時(shí)間也只增加了8 ms,但性能卻提升了17%是更優(yōu)秀的輕量特征提取器。在訓(xùn)練過(guò)程中,記錄這些網(wǎng)絡(luò)結(jié)構(gòu)的損失曲線和準(zhǔn)確率曲線,如圖7所示是訓(xùn)練集的損失值變化曲線。可以看出,本文所改進(jìn)的FullRes2Net 結(jié)構(gòu)損失值低于其他方法,收斂效果最優(yōu)。表明本文所提FullRes2Net可以更好的收斂。而注意力曲線則相較于對(duì)比的所有網(wǎng)絡(luò)結(jié)構(gòu)始終保持最高,并明顯地領(lǐng)先于Res2Net。損失值和準(zhǔn)確率的實(shí)驗(yàn)結(jié)果表明,本文提出的FullRes2Net 擁有更強(qiáng)的特征提取能力,得到幀級(jí)特征也更有效、更具區(qū)別性。
表3 不同網(wǎng)絡(luò)的參數(shù)量以及推理時(shí)間Table 3 Number of parameters and inference time for different networks
圖7 不同網(wǎng)絡(luò)的訓(xùn)練損失曲線與準(zhǔn)確率曲線Fig.7 Loss curves and accuracy curves of different networks in the training
表4 展示了本文所提出的混合時(shí)頻通道注意力中時(shí)頻注意力和通道注意力在Voxceleb1-O 的測(cè)試結(jié)果。從表中可以看出,時(shí)頻注意力的表現(xiàn)相比于通道注意力的表現(xiàn)要差一些。時(shí)頻注意力由于注意力機(jī)制并不具有卷積那樣的局部特征提取能力,因此會(huì)忽略掉一些特征細(xì)節(jié)。但它可以有效地注意到特征時(shí)頻域中更明顯的重要區(qū)域以及不重要的區(qū)域,對(duì)這些重要進(jìn)行強(qiáng)調(diào),對(duì)不要的區(qū)域進(jìn)行抑制。在通道注意力中,通過(guò)全局權(quán)重對(duì)所有的時(shí)頻信息加權(quán),將時(shí)頻信息聚集到通道信息之中。從而可以充分地利用時(shí)頻信息,進(jìn)而產(chǎn)生更準(zhǔn)確的全局通道權(quán)重。不同于二維的時(shí)頻注意,一維的通道注意會(huì)更簡(jiǎn)單也更準(zhǔn)確地對(duì)重要的通道特征進(jìn)行強(qiáng)調(diào)。但將兩者同時(shí)作用相加則會(huì)產(chǎn)生更明顯的信息增益,通道注意會(huì)突出重要的通道特征,而時(shí)頻注意會(huì)突出重要的時(shí)頻區(qū)域。同時(shí),通道注意也會(huì)彌補(bǔ)時(shí)頻注意缺失的部分特征細(xì)節(jié)。表5 展示了本文所提出的混合時(shí)頻通道注意力與不同注意力方法在Voxceleb1-O測(cè)試集上的結(jié)果,同樣在相同實(shí)驗(yàn)條件下進(jìn)行測(cè)試,但系統(tǒng)的骨干架構(gòu)直接選取FullRes2Net。從表中可以看出,注意力的使用明顯地提升了基線系統(tǒng)的系統(tǒng),增強(qiáng)了卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力。SE注意力通過(guò)強(qiáng)調(diào)特征的通道維度使系統(tǒng)的EER/DCF 降至2.63%/0.254 3,tf-CBAM 注意力通過(guò)強(qiáng)調(diào)特征的時(shí)間維度和頻率維度進(jìn)一步提升了系統(tǒng)的性能,取得了比SE 注意力更低的EER/DCF 為2.46%/0.252 3。而本文所提的MTFC 則取得了最低EER/DCF 為2.23%/0.224 3 并明顯地領(lǐng)先于tf-CBAM注意力,證明了MTFC注意力是更優(yōu)秀的注意力方法,通過(guò)對(duì)時(shí)間-頻率-通道維度交互得到了更多的說(shuō)話人身份信息,同時(shí)使用二維1×1卷積的方式也更有效地捕捉了特征間的依賴關(guān)系,從而相比于其他注意力方法更有效地提升了卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力。也證明了SE注意力和tf-CBAM注意力中使用池化的方式丟失了說(shuō)話人身份信息,也不能進(jìn)行有效的注意力學(xué)習(xí)。由表6可以看出,相比于結(jié)構(gòu)最簡(jiǎn)單參數(shù)量更少的SE 注意力(包括了FullRes2Net 在內(nèi)),本文所提出的MTFC 注意力參數(shù)量增加了3×104,推理時(shí)間增加了8 ms,但性能卻提升了15%。同樣,本文記錄了這些注意力在訓(xùn)練過(guò)程中的損失曲線和準(zhǔn)確率曲線,如圖8所示是不同注意力方法的訓(xùn)練集的損失曲線和準(zhǔn)確率曲線。從圖中可以看出,本文所提出的混合時(shí)頻通道注意力損失值相對(duì)于其他注意力方法更低,收斂速度更快,并且損失值始終低于其他方法,收斂效果最優(yōu)。表明本文所提方法可以使神經(jīng)網(wǎng)絡(luò)更好的收斂。而在準(zhǔn)確率曲線中,MTFC 注意力則表現(xiàn)出最優(yōu)的性能,相較于對(duì)比的所有注意力始終保持最高,并明顯地領(lǐng)先于tf-CBAM注意力。損失值和準(zhǔn)確率的實(shí)驗(yàn)結(jié)果表明,本文所提出的MTFC 注意力,更有效地獲取了特征之間的依賴,得到了更多的注意信息,從而也更有效地增強(qiáng)了卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力,提高了模型的性能。
表5 不同注意力方法在Voxceleb1-O的測(cè)試結(jié)果Table 5 Test results of different attention in Voxceleb1-O
表6 不同注意力方法的參數(shù)量以及推理時(shí)間Table 6 Number of parameters and inference time for different attention
圖8 不同注意力的訓(xùn)練損失曲線與準(zhǔn)確率曲線Fig.8 Loss curves and accuracy curves of different attention in training
接下來(lái),本文將所提出的MTFC-FullRes2Net 端到端說(shuō)話人識(shí)別系統(tǒng)在Voxceleb1-O上與當(dāng)前那些使用更深、更寬、更復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)的先進(jìn)說(shuō)話人識(shí)別系統(tǒng)進(jìn)行了比較與評(píng)估。結(jié)果如表7所示。在此之前的實(shí)驗(yàn)中,使用復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)的RawNet和CNN+Transform說(shuō)話人識(shí)別系統(tǒng)表現(xiàn)出最后的性能EER分別為2.48%與2.56%。而本文構(gòu)建的MTFC-FullRes2Net結(jié)構(gòu)超過(guò)了之前的最佳結(jié)果取得了更低的EER/DCF 值為2.23%/0.224 3,并且優(yōu)于目前大部分的說(shuō)話人識(shí)別系。證明了本文所提出的MTFC-FullRes2Net端到端說(shuō)話人識(shí)別系統(tǒng)具有更強(qiáng)的特征提取能力,同時(shí)也參數(shù)量也遠(yuǎn)遠(yuǎn)小于所對(duì)比的使用復(fù)雜結(jié)構(gòu)網(wǎng)絡(luò)模型的說(shuō)話人識(shí)別系統(tǒng)。
表7 不同系統(tǒng)在Voxceleb1-O的測(cè)試結(jié)果Table 7 Test results of different systems in Voxceleb1-O
為了更全面地評(píng)估系統(tǒng)性能,本文在規(guī)模更大也更困難的測(cè)試表單Voxceleb1-E 和Voxceleb1-H 再次進(jìn)行了測(cè)試。如表8所示,在使用整個(gè)Voxceleb1作為測(cè)試集的Voxceleb1-E 中,本文所提出的MTFC-FullRes2Net 端到端說(shuō)話人識(shí)別系統(tǒng)依然取得了更好的結(jié)果。
表8 不同系統(tǒng)在Voxceleb1-E的測(cè)試結(jié)果Table 8 Test results of different systems in Voxceleb1-E
而在使用同一國(guó)家和性別的Voxceleb1-H 測(cè)試集上,由于口音和語(yǔ)調(diào)的差別減小相似性更高更難以區(qū)別,模型的EER/DCF值都有所上升。但從表9可以看出本文提出的MTFC-FullRes2Net說(shuō)話人識(shí)別系統(tǒng)依然保持領(lǐng)先,EER/DCF為3.75%/0.376 2遠(yuǎn)遠(yuǎn)低于其他方法。證明MTFC-FullRes2Net端到端說(shuō)話人識(shí)別系統(tǒng)獲得的幀級(jí)特征區(qū)別性更強(qiáng),從而在聚合模型聚合幀級(jí)模型的過(guò)程中得到甄別性更強(qiáng)的話語(yǔ)級(jí)特征,可以更好地區(qū)分相似度更高的說(shuō)話人。
表9 不同系統(tǒng)在Voxceleb1-H的測(cè)試結(jié)果Table 9 Test results of different systems in Voxceleb1-H
為了進(jìn)一步可視化MTFC-FullRes2Net端到端說(shuō)話人識(shí)別系統(tǒng),本文使用了Maaten等人[26]提出的可視化方法將MTFC-FullRes2Net得到話語(yǔ)級(jí)特征通過(guò)t-SNE方法降維后形成可視化效果圖。在Voxceleb1-H中隨機(jī)選取50名說(shuō)話人以不同的顏色表示,每人隨機(jī)選取10段音頻并從每段音頻中隨機(jī)提取出10個(gè)3 s的測(cè)試片段,共5 000個(gè)3 s的測(cè)試片段。如圖9所示,(a)為T(mén)hinResNet-50所提出的話語(yǔ)級(jí)特征可視化效果圖,可以看出得到的話語(yǔ)級(jí)特征類間、類內(nèi)距離都較大且分類錯(cuò)誤和碰撞的情況也比較多,表明基線系統(tǒng)得到的話語(yǔ)級(jí)特征不具有甄別性。同時(shí),來(lái)自同一說(shuō)話人的話語(yǔ)級(jí)特征之間相似性弱使得類內(nèi)距離較大。(b)為采用Res2Net 得到的可視化效果圖,相比于(a)它的分類錯(cuò)誤更少,但話語(yǔ)級(jí)特征類內(nèi)的距離依然較大,表明Res2Net擁有更強(qiáng)的特征提取能力,得到的話語(yǔ)級(jí)特征甄別性也更強(qiáng)。(c)為FullRes2Net的可視化效果圖,可以明顯看出相比(b)它的類間距離更大,類內(nèi)距離更小聚合的也更加緊密,表明本文所改進(jìn)的FullRes2Net是有效的,它擁有比Res2Net更強(qiáng)的特征提取能力。(d)表示使用MTFC-FullRes2Net得到的話語(yǔ)級(jí)特征的可視化效果圖,可以明顯看出它不僅分類錯(cuò)誤更少,同時(shí)類間距離也更大,類內(nèi)結(jié)合得更緊密。表明混合時(shí)頻通道注意力機(jī)制的引入可以使卷積神經(jīng)網(wǎng)絡(luò)得到更具區(qū)別性的幀級(jí)特征,從而提升話語(yǔ)特征的甄別性,并使來(lái)自同一說(shuō)話人的話語(yǔ)級(jí)特征具有更高的相似性。
圖9 不同網(wǎng)絡(luò)的t-SNE降維可視圖Fig.9 t-SNE reduced dimensional view of different networks
本文提出基于混合時(shí)頻通道注意力和FullRes2Net的端到端說(shuō)話人識(shí)別系統(tǒng),將目標(biāo)檢測(cè)任務(wù)中的Res2Net引入到說(shuō)話人識(shí)別任務(wù)中,驗(yàn)證了其有效性并改進(jìn)提出FullRes2Net,利用FullRes2Net 在更細(xì)粒的層次上獲得多種感受野的組合,從而獲得多種不同尺度組合的特征表達(dá),產(chǎn)生說(shuō)話人身份信息更豐富、更全面、更具區(qū)別性的幀級(jí)特征。同時(shí),為了解決現(xiàn)有注意力方法存在的問(wèn)題以及改善卷積網(wǎng)絡(luò)本身存在的缺陷,本文提出了混合時(shí)頻通道注意力(MTFC),以提高卷積網(wǎng)絡(luò)的特征提取能力,更有效地獲取音頻中的說(shuō)話人身份信息。所提出的MTFC-FullRes2Net 說(shuō)話人識(shí)別系統(tǒng)在Voxceleb 測(cè)試集上的EER/DCF 為2.23%/0.224 3,相較于Res2Net 性能提升了34%參數(shù)量增加了9×104,而相較于輕量的ThinResNet-50 性能提升了56%但參數(shù)量只增加了在9.8×105。同時(shí),它也優(yōu)于現(xiàn)有的多種使用復(fù)雜結(jié)構(gòu)的說(shuō)話人識(shí)別系統(tǒng),是一種參數(shù)量更少、推理時(shí)間更快、效率更高的端到端結(jié)構(gòu)。