亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于不確定性學(xué)習(xí)的文本無關(guān)的說話人確認方法

        2024-01-09 04:00:14張玉蓮姚姍姍王超暢江
        計算機應(yīng)用 2023年12期
        關(guān)鍵詞:聲紋不確定性語音

        張玉蓮,姚姍姍,王超,暢江

        基于不確定性學(xué)習(xí)的文本無關(guān)的說話人確認方法

        張玉蓮,姚姍姍*,王超,暢江

        (山西大學(xué) 大數(shù)據(jù)科學(xué)與產(chǎn)業(yè)研究院,太原 030006)(?通信作者電子郵箱 yaoshanshan@sxu.edu.cn)

        說話人確認任務(wù)旨在判斷注冊語音與測試語音是否屬于同一說話人。針對說話人識別系統(tǒng)提取的聲紋特征通常會受到與身份信息無關(guān)的因素干擾進而導(dǎo)致系統(tǒng)的準(zhǔn)確性嚴重下降的問題,提出一種基于不確定性學(xué)習(xí)(UL)的文本無關(guān)的說話人確認(TISV)方法。首先,在說話人主干網(wǎng)絡(luò)中引入不確定性同時學(xué)習(xí)聲紋特征(均值)和話語數(shù)據(jù)的不確定性(方差),以建模語音數(shù)據(jù)集中的不確定性;其次,通過重采樣技巧得到特征的分布表示;最后,在說話人分類損失中引入KL散度正則化約束噪聲的分布,從而解決計算分類損失過程中的退化問題。實驗結(jié)果表明,當(dāng)訓(xùn)練集為VoxCeleb1和VoxCeleb2開發(fā)集時,與基于確定性方法的Thin ResNet34模型相比,所提方法的模型在VoxCeleb1-O測試集上的等錯誤率(EER)分別降低了9.9%和10.4%,最小檢測代價函數(shù)(minDCF)分別降低了10.9%和4.5%??梢?,所提方法在有噪聲、無約束場景下的準(zhǔn)確度有所提高。

        說話人確認;數(shù)據(jù)不確定性;分布嵌入;AAM-softmax;KL散度

        0 引言

        人類具有通過說話聲音判別說話人的能力。為了使計算機獲得這種能力,基于語音的認證技術(shù)應(yīng)運而生,該技術(shù)被稱為自動說話人識別(Automatic Speaker Recognition,ASR)。ASR通過分析從說話人聲音中提取的語音信號和特征識別說話人的身份,由于它獲取語音成本低、用戶接受程度高、適合遠程身份認證和不涉及用戶隱私等優(yōu)點,近年來備受關(guān)注,已快速發(fā)展并廣泛應(yīng)用于公安電信反欺詐、刑事調(diào)查和移動支付等領(lǐng)域。

        說話人確認是說話人識別的任務(wù)之一,用于判斷給定的兩段語音是否屬于同一個人。根據(jù)應(yīng)用場景,又可分為文本相關(guān)的說話人確認(Text-Dependent Speaker Verification,TDSV)和文本無關(guān)的說話人確認(Text-Independent Speaker Verification,TISV)。文本無關(guān)指說話人識別系統(tǒng)對說話的內(nèi)容無任何要求,在訓(xùn)練和識別階段說話人只需要隨意地錄制達到一定長度的語音即可;而文本相關(guān)指說話人識別系統(tǒng)要求用戶必須按照事先指定的文本內(nèi)容進行發(fā)音。由于TISV對語音內(nèi)容沒有施加任何限制,更加方便靈活,具有更好的推廣性和適應(yīng)性,但也比TDSV更具挑戰(zhàn)性,因此本文聚焦TISV的研究。

        基于深度學(xué)習(xí)的體系結(jié)構(gòu)可以從大型標(biāo)記數(shù)據(jù)集同時學(xué)習(xí)特征表示和決策框架,不需要再為任何特定的問題手工制作特征。大規(guī)模數(shù)據(jù)集(如用于圖像分類的ImageNet[1]、用于人臉識別的LFW(Labeled Faces in the Wild)[2]和用于說話人識別的VoxCeleb[3])的可用性促進了深度學(xué)習(xí)的進展。作為智能語音領(lǐng)域的熱點研究方向,近年來,基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)的TISV技術(shù)在可控場景下已取得了卓越的性能;然而,數(shù)據(jù)驅(qū)動方法無法定義模型在訓(xùn)練過程中學(xué)習(xí)的信息——是數(shù)據(jù)集中存在的有用信息,還是不希望被學(xué)習(xí)的偏差。在實際應(yīng)用場景中,由于外在和內(nèi)在的變化(外在的變化包括背景聊天、音樂、笑聲、混響、頻道和麥克風(fēng)效果等;內(nèi)在的變化是說話者本身固有的因素,如年齡、口音、情感、語調(diào)和說話方式等),TISV系統(tǒng)性能嚴重下降。為此,大量的研究者提出了不同的網(wǎng)絡(luò)架構(gòu)、池化方式、損失函數(shù)等,以提升說話人確認系統(tǒng)的魯棒性和泛化性。

        與這些工作不同,本文從數(shù)據(jù)的不確定性角度出發(fā),提出一種基于不確定性學(xué)習(xí)(Uncertainty Learning, UL)的文本無關(guān)的說話人確認方法。

        本文的主要工作內(nèi)容如下:

        1)不同于目前常用的說話人確認模型將說話人特征表示為潛在空間中的點估計,為了應(yīng)對真實環(huán)境存在的噪聲等干擾,本文方法為說話人特征提供了分布估計的方式。分布的均值代表最可能的說話人特征,即理想的聲紋特征;而分布的方差是對不確定的噪聲進行估計,代表聲紋特征受說話人無關(guān)信息干擾的程度。

        2)本文方法學(xué)習(xí)的分布表示可以直接用于各種分類損失和傳統(tǒng)的相似性度量,并使用KL(Kullback-Leibler)散度[4]正則化約束噪聲的分布,解決計算分類損失時的退化問題。

        實驗結(jié)果表明,與現(xiàn)有的確定性模型相比,本文方法提高了說話人確認系統(tǒng)的性能。這一改進在有噪聲、無約束的場景下更顯著,表明具有數(shù)據(jù)不確定性學(xué)習(xí)的模型更加適用于真實的復(fù)雜環(huán)境和實際場景。

        1 相關(guān)工作

        1.1 文本無關(guān)的說話人確認

        1.1.1傳統(tǒng)方法

        1.1.2深度學(xué)習(xí)方法

        基于DNN的說話人嵌入提取系統(tǒng)通常由3個部分組成:幀級特征處理、話語(說話人)級特征處理和訓(xùn)練損失。幀級特征處理提取局部短跨度的聲學(xué)特征,可以通過時延神經(jīng)網(wǎng)絡(luò)(Time-Delay Neural Network,TDNN)或卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)完成;話語級特征處理基于幀級特征形成說話人的表示,即用池化層收集幀級信息以形成語句級別的特征表示,例如統(tǒng)計池[7]、最大池化[8]、注意力統(tǒng)計池[9]和多頭注意力統(tǒng)計池[10]等,通過使用統(tǒng)計池、自注意力和可學(xué)習(xí)字典編碼(Learnable Dictionary Encoding, LDE)[11]等方法,神經(jīng)網(wǎng)絡(luò)能從話語中提取更有意義的低維向量;常用的訓(xùn)練損失有交叉熵損失和三元損失,基于交叉熵損失的方法[6]側(cè)重減少訓(xùn)練數(shù)據(jù)中所有說話者的混淆,基于三元損失的方法[12]聚焦增大相似說話人之間的差距。此外,為了進一步增強說話人嵌入的判別力,一些更復(fù)雜有效的網(wǎng)絡(luò)架構(gòu)和損失函數(shù)[13-19]被提出。

        1.2 不確定性學(xué)習(xí)

        深度學(xué)習(xí)算法可以將高維數(shù)據(jù)映射到低維向量,得到特征表示;然而,在諸如自動駕駛、人臉識別等應(yīng)用中,深度學(xué)習(xí)模型的結(jié)果并非總是可信的。因此,算法如果能夠判斷模型給出的結(jié)果是否可信,即對模型的結(jié)果給出一個置信度,那么系統(tǒng)就可以根據(jù)這個置信度作出更好的決策,并有可能避免災(zāi)難。如圖1所示是一個判別數(shù)據(jù)對的相似度的系統(tǒng),判別系統(tǒng)給出的相似度結(jié)果都是90%,由于系統(tǒng)對給出的判斷具有一定程度的“不確定性”,一個置信度為10%,另一個為90%,人們需要類似置信度分數(shù)這類的“不確定性”指標(biāo)輔助以作出更好的決策。

        圖1 不確定性示意圖

        長期以來,為了幫助解決可靠性評估和基于風(fēng)險的決策問題,不確定性的性質(zhì)和處理方法已被廣泛研究。近年來,深度學(xué)習(xí)中的不確定性研究也備受關(guān)注。針對深度不確定性學(xué)習(xí),不確定性可以分為在DNN中捕獲參數(shù)噪聲的模型不確定性和測量給定訓(xùn)練數(shù)據(jù)中固有噪聲的數(shù)據(jù)不確定性。目前許多計算機視覺任務(wù),如語義分割[20-21]、目標(biāo)檢測[22]、行人再識別[23]和人臉識別[24-25]都將深度不確定性學(xué)習(xí)引入中樞神經(jīng)網(wǎng)絡(luò),提高模型的魯棒性和可解釋性。

        本文將不確定性學(xué)習(xí)引入說話人確認任務(wù)的中樞神經(jīng)網(wǎng)絡(luò)。本文主要關(guān)注數(shù)據(jù)的不確定性,通過使網(wǎng)絡(luò)模型同時學(xué)習(xí)聲紋特征(均值)與不確定的噪聲(方差),以實現(xiàn)同一說話人的語句提取的聲紋特征距離更近,不同說話人的聲紋特征距離更遠。

        2 本文方法

        2.1 確定性的說話人識別

        經(jīng)典的確定性的說話人確認模型的網(wǎng)絡(luò)框架如圖2所示。在訓(xùn)練階段,訓(xùn)練一個閉集的分類模型,分類頭的維數(shù)等于訓(xùn)練數(shù)據(jù)集中的說話人數(shù),使用殘差網(wǎng)絡(luò)(Residual Network, ResNet)[26]提取幀級特征,再使用自注意力池(Self-Attentive Pooling, SAP)[27]將幀級特征聚合成話語級特征,最后計算采用了非線性softmax的分類頭與真實標(biāo)簽的交叉熵損失,圖2中采用的損失函數(shù)是AAM-softmax(Additive Angular Margin-softmax)[28]。訓(xùn)練完成后,去除分類頭,將模型作為說話人特征的提取器,提取話語對的說話人特征,然后進行相似度打分。

        圖2 確定性的說話人確認模型

        2.2 基于不確定性學(xué)習(xí)的說話人識別

        2.2.1語音數(shù)據(jù)集中的不確定性

        2.2.2分布表示

        2.2.3訓(xùn)練損失

        2.2.4DNN實現(xiàn)

        整個聲紋不確定性模型的框架如圖3所示。

        圖3 基于UL的TISV方法的模型架構(gòu)

        3 實驗與結(jié)果分析

        3.1 數(shù)據(jù)集及評價指標(biāo)

        3.1.1數(shù)據(jù)集

        本文使用目前主流的VoxCeleb1和VoxCeleb2數(shù)據(jù)集[31],VoxCeleb1和VoxCeleb2是沒有重復(fù)交集的兩個說話人識別數(shù)據(jù)集,它們均來自YouTube網(wǎng)站中的視頻。VoxCeleb1包含1 251位名人的10多萬句話語,VoxCeleb2包含超過6 000位名人的100多萬句話語。這兩個數(shù)據(jù)集的性別比例都較均衡(VoxCeleb1包含55%男性,VoxCeleb2包含61%男性)。數(shù)據(jù)集中的演講者跨越了不同的種族、口音、職業(yè)和年齡,并且所有話語都受現(xiàn)實世界的噪聲干擾,包括背景聊天、笑聲、重疊語音和房間聲學(xué)等。

        本文包含兩組實驗:一組使用VoxCeleb1開發(fā)集作為訓(xùn)練集,包含除測試集以外的1 211位說話人的21 819條語音,采用VoxCeleb1-O作為測試集;另一組使用VoxCeleb2開發(fā)集作為訓(xùn)練集,包含除測試集以外的5 994位說話人的1 092 009條語音,采用VoxCeleb1-O、VoxCeleb1-E和VoxCeleb1-H這3個數(shù)據(jù)集作為測試集。以下對3個測試集進行介紹:

        1)VoxCeleb1-O:包含37 720組采樣自VoxCeleb1中的40位說話人的測試對,其中18 860組測試對為真。

        2)VoxCeleb1-E:是VoxCeleb1-O的擴展,包含采樣自VoxCeleb1的1 251位說話人的581 480組測試對。

        3)VoxCeleb1-H:包含采樣自VoxCeleb1的1 251位說話人的552 536個測試對。因為每組測試對中說話人的國家和性別都相同,所以更難。

        數(shù)據(jù)增強可以增加訓(xùn)練數(shù)據(jù)的數(shù)量和多樣性,有效減少過擬合,提升模型的性能,本文在語音處理中采用了兩種流行的增強方法——加性噪聲和房間脈沖響應(yīng)(Room Impluse Response, RIR)模擬。加性噪聲使用來自MUSAN語料庫的語音片段[32];RIR從文獻[33]中發(fā)布的中小房間的模擬濾波器進行采樣得到。

        3.1.2評價指標(biāo)

        本文使用了兩個評價指標(biāo):

        1)等錯誤率(Equal Error Rate, EER)[34]。是錯誤接受率和錯誤拒絕率相等時的閾值,能夠衡量說話人確認系統(tǒng)的性能,EER越小,說明模型性能越好。本文將EER作為主要評價指標(biāo)。

        2)最小檢測代價函數(shù)(minimum Detection Cost Function,minDCF)[34]。旨在系統(tǒng)對錯誤接受率(False Accept Rate, FAR)和錯誤拒絕率(False Reject Rate, FRR)兩種錯誤判別設(shè)定不同的權(quán)重,minDCF越小越好。minDCF計算公式如式(6)所示:

        3.2 基線網(wǎng)絡(luò)架構(gòu)及本文的網(wǎng)絡(luò)架構(gòu)

        本文以確定性模型為基線,采用殘差網(wǎng)絡(luò)[35-36]作為幀級特征提取器,使用Thin ResNet34提取幀級特征。Thin ResNet34與原始的ResNet34相同,有34層,但在每個殘差塊中只使用1/2的通道以減少計算成本。SAP作為池化層,將幀級特征聚合為話語級表示,通過自動計算每一幀的重要性選擇重要的幀級特征,利用注意力機制將更多的注意力集中到為話語級說話人識別提供更多信息的幀。在池化層之后,引入一個維度為256的全連接層,作為256維的說話人嵌入提取層。最后,設(shè)置一個維數(shù)為訓(xùn)練集說話人數(shù)的分類頭,使用AAM-softmax分類損失,即式(4)。

        表1基線Thin ResNet34和本文方法的網(wǎng)絡(luò)架構(gòu)

        Tab.1 Network architectures of baseline Thin ResNet34 and proposed method

        注:為輸入序列的長度。

        3.3 模型輸入及訓(xùn)練策略

        本文實驗在Linux下的PyTorch 1.11.0環(huán)境運行,使用8張Tesla P100顯卡進行訓(xùn)練,每張顯卡顯存為16 GB,實驗batchsize設(shè)置為256。以長度為3 s的隨機片段提取的梅爾頻率倒譜系數(shù)(Mel-scale Frequency Cepstral Coefficient, MFCC)特征作為訓(xùn)練樣本,使用窗長為25 ms,窗移為10 ms的漢明窗進行滑動分幀處理,每幀提取64維MFCC特征,不進行語音活動檢測。作為最后的增強步驟,對大小為64×300的對數(shù)梅爾譜圖應(yīng)用了SpecAugment[37],在時域隨機掩碼0~10幀,在頻域隨機掩碼0~8個通道。

        模型訓(xùn)練使用Adam優(yōu)化器,模型學(xué)習(xí)率均為2×10-3,使用余弦退火(Cosine Annealing)學(xué)習(xí)率調(diào)節(jié)算法[38],AAM-softmax損失函數(shù)中scale設(shè)為30,margin設(shè)置為0.2。為了防止過擬合,對模型中的所有參數(shù)使用了2×10-5權(quán)重衰減。

        3.4 實驗結(jié)果對比

        表2、3展示了基線Thin ResNet34和本文方法在測試集上的評估結(jié)果。

        表2訓(xùn)練集為VoxCeleb1開發(fā)集時,VoxCeleb1-O測試集上的評估結(jié)果

        Tab.2 Evaluation results on VoxCeleb1-O test set after training on VoxCeleb1 development set

        相較于確定性架構(gòu),本文方法的模型性能有明顯提升,如表2所示,訓(xùn)練集為VoxCeleb1開發(fā)集時,在VoxCeleb1-O測試集上EER從2.413%降到了2.175%,EER相較于基線減小了9.9%,minDCF相較于基線減小了10.9%;如表3所示,訓(xùn)練集為Voxceleb2開發(fā)集時,在VoxCeleb1-O、VoxCeleb1-E和VoxCeleb1-H上EER相較于基線分別減小了10.4%、5.3%和3.0%,minDCF相較于基線分別減小了4.5%、5.3%和2.9%。實驗結(jié)果驗證了對語音數(shù)據(jù)集中的不確定性建模的必要性,說明它有助于說話人確認模型的性能提升。

        表3訓(xùn)練集為VoxCeleb2開發(fā)集時,VoxCeleb1-O、VoxCeleb1-E和VoxCeleb1-H測試集上的評估結(jié)果

        Tab.3 Evaluation results on VoxCeleb1-O、VoxCeleb1-E and VoxCeleb1-H test sets after training on VoxCeleb2 development set

        3.5 參數(shù)分析

        表4超參數(shù)取不同值,不同訓(xùn)練集和測試集上所提方法的評估結(jié)果

        Tab.4 Evaluation results of proposed method on different test sets and development sets with different hyperparameter λ values

        3.6 消融分析

        表5消融實驗結(jié)果

        Tab.5 Ablation experimental results

        4 結(jié)語

        本文提出了一種基于不確定性學(xué)習(xí)的文本無關(guān)的說話人確認方法,該方法通過使網(wǎng)絡(luò)模型同時學(xué)習(xí)聲紋特征(均值)與不確定的噪聲(方差),可以對與說話人確認相關(guān)的數(shù)據(jù)集中與身份信息無關(guān)的數(shù)據(jù)進行不確定性建模,并使用KL散度正則化方法約束噪聲的分布,解決了建模中出現(xiàn)的退化問題。使用VoxCeleb數(shù)據(jù)集訓(xùn)練和評估了所提出的方法在說話人確認任務(wù)上的性能,實驗結(jié)果表明,該方法的性能超過了基于確定性的基線模型。下一步將考慮在說話人確認中引入表示解糾纏,使聲紋特征與不相關(guān)的特征解糾纏。

        [1] DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database[C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2009: 248-255.

        [2] HUANG G B, MATTAR M, BERG T, et al. Labeled faces in the wild: a database for studying face recognition in unconstrained environments [EB/OL]. [2019-02-25]. http://vis-www.cs.umass.edu/papers/eccv2008-lfw.pdf.

        [3] NAGRANI A, CHUNG J S, ZISSERMAN A. VoxCeleb: a large-scale speaker identification dataset[EB/OL]. [2018-05-30]. https://arxiv.org/pdf/1706.08612.pdf.

        [4] JOYCE J M. Kullback-Leibler divergence[M]// International Encyclopedia of Statistical Science. Cham: Springer, 2011: 720-722.

        [5] DEHAK N, KENNY P J, DEHAK R, et al. Front-end factor analysis for speaker verification [J]. IEEE Transactions on Audio, Speech, and Language Processing, 2010, 19(4): 788-798.

        [6] HANSEN J H L, HASAN T. Speaker recognition by machines and humans: a tutorial review[J]. IEEE Signal Processing Magazine, 2015, 32(6): 74-99.

        [7] SNYDER D, GARCIA-ROMERO D, POVEY D, et al. Deep neural network embeddings for text-independent speaker verification[C]// Proceedings of the INTERSPEECH 2017. [S.l.]: International Speech Communication Association, 2017:999-1003.

        [8] NOVOSELOV S, SHULIPA A, KREMNEV I, et al. On deep speaker embeddings for text-independent speaker recognition[EB/OL]. [2018-04-26]. https://arxiv.org/pdf/1804.10080.pdf.

        [9] OKABE K, KOSHINAKA T, SHINODA K. Attentive statistics pooling for deep speaker embedding [EB/OL]. [2019-02-25]. https://arxiv.org/pdf/1803.10963.pdf.

        [10] ZHU Y, KO T, SNYDER D, et al. Self-attentive speaker embeddings for text-independent speaker verification[C]// Proceedings of the INTERSPEECH 2018. [S.l.]: International Speech Communication Association, 2018: 3573-3577.

        [11] CAI W, CAI Z, ZHANG X, et al. A novel learnable dictionary encoding layer for end-to-end language identification[C]// Proceedings of the 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2018: 5189-5193.

        [12] LI C, MA X, JIANG B, et al. Deep Speaker: an end-to-end neural speaker embedding system[EB/OL]. [2017-05-05]. https://arxiv.org/pdf/1705.02304.pdf.

        [13] KWON Y, HEO H-S, LEE B-J, et al. The ins and outs of speaker recognition: lessons from VoxSRC 2020[C]// Proceedings of the 2021 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2021: 5809-5813.

        [14] DESPLANQUES B, THIENPONDT J, DEMUYNCK K. ECAPA-TDNN: emphasized channel attention, propagation and aggregation in TDNN based speaker verification[EB/OL]. [2020-08-10]. https://arxiv.org/pdf/2005.07143.pdf.

        [15] WU Y, ZHAO J, GUO C, et al. Improving deep CNN architectures with variable-length training samples for text-independent speaker verification[C]// Proceedings of the INTERSPEECH 2021. [S.l.]: International Speech Communication Association, 2021: 81-85.

        [16] LIU T, DAS R K, LEE K A, et al. MFA: TDNN with multi-scale frequency-channel attention for text-independent speaker verification with short utterances[C]// Proceedings of the 2022 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2022: 7517-7521.

        [17] KIM S-H, NAM H, PARK Y-H. Temporal dynamic convolutional neural network for text-independent speaker verification and phonemic analysis[C]// Proceedings of the 2022 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2022: 6742-6746.

        [18] 陳晨,肜婭峰,季超群,等. 基于深層信息散度最大化的說話人確認方法[J]. 通信學(xué)報, 2021, 42(7): 231-237.(CHEN C, RONG Y F, JI C Q, et al. Speaker verification method based on deep information divergence maximization[J]. Journal on Communication, 2021, 42(7): 231-237.)

        [19] 姜珊,張二華,張晗. 基于 Bi-GRU+BFE模型的短語音說話人識別[J]. 計算機與數(shù)字工程, 2022, 50(10): 2233-2239.(JIANG S, ZHANG E H, ZHANG H. Speaker recognition under short utterance based on Bi-GRU+BFE model[J]. Computer and Digital Engineering, 2022, 50(10): 2233-2239.)

        [20] ISOBE S, ARAI S. Deep convolutional encoder-decoder network with model uncertainty for semantic segmentation[C]// Proceedings of the 2017 IEEE International Conference on INnovations in Intelligent SysTems and Applications. Piscataway: IEEE, 2017: 365-370.

        [21] HU P, SCLAROFF S, SAENKO K. Uncertainty-aware learning for zero-shot semantic segmentation[J]. Advances in Neural Information Processing Systems, 2020, 33: 21713-21724.

        [22] CHOI J, CHUN D, KIM H, et al. Gaussian YOLOv3: an accurate and fast object detector using localization uncertainty for autonomous driving[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE,2019: 502-511.

        [23] YU T, LI D, YANG Y, et al. Robust person re-identification by modelling feature uncertainty [C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 552-561.

        [24] SHI Y, JAIN A K. Probabilistic face embeddings[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE,2019: 6901-6910.

        [25] CHANG J, LAN Z, CHENG C, et al. Data uncertainty learning in face recognition[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 5709-5718.

        [26] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2016: 770-778.

        [27] CAI W, CHEN J, LI M. Exploring the encoding layer and loss function in end-to-end speaker and language recognition system[EB/OL]. [2018-04-14]. https://arxiv.org/pdf/1804.05160.pdf.

        [28] DENG J, GUO J, XUE N, et al. ArcFace: additive angular margin loss for deep face recognition [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2019: 4690-4699.

        [29] KINGMA D P, WELLING M. Auto-encoding variational Bayes[EB/OL]. [2018-04-14]. https://arxiv.org/pdf/1312.6114.pdf?source=post_page.

        [30] ALEMI A A, FISCHER I, DILLON J V, et al. Deep variational information bottleneck[EB/OL]. [2019-10-23]. https://arxiv.org/pdf/1612.00410.pdf.

        [31] NAGRANI A, CHUNG J S, XIE W, et al. VoxCeleb: large-scale speaker verification in the wild[J]. Computer Speech & Language, 2020, 60: 101027.

        [32] SNYDER D, CHEN G, POVEY D. MUSAN: a music, speech, and noise corpus[EB/OL]. [2019-10-23].https://arxiv.org/pdf/1510.08484.pdf.

        [33] KO T, PEDDINTI V, POVEY D, et al. A study on data augmentation of reverberant speech for robust speech recognition[C]// Proceedings of the 2017 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2017: 5220-5224.

        [34] DODDINGTON G R, PRZYBOCKI M A, MARTIN A F, et al. The NIST speaker recognition evaluation — overview, methodology, systems, results, perspective[J]. Speech Communication, 2000, 31(2/3): 225-254.

        [35] CHUNG J S, NAGRANI A, ZISSERMAN A. VoxCeleb2: deep speaker recognition[EB/OL]. [2018-04-14]. https://arxiv.org/pdf/1806.05622.pdf.

        [36] CAI W, CHEN J, LI M. Exploring the encoding layer and loss function in end-to-end speaker and language recognition system[EB/OL]. [2018-04-14].https://arxiv.org/pdf/1804.05160.pdf.

        [37] PARK D S, CHAN W, ZHANG Y, et al. SpecAugment: a simple data augmentation method for automatic speech recognition [EB/OL]. [2019-12-03].https://arxiv.org/pdf/1904.08779.pdf.

        [38] LOSHCHILOV I, HUTTER F. SGDR: stochastic gradient descent with warm restarts[EB/OL]. [2018-04-14]. https://arxiv.org/pdf/1608.03983.pdf.

        Text-independent speaker verification method based on uncertainty learning

        ZHANG Yulian, YAO Shanshan*, WANG Chao, CHANG Jiang

        (,,030006,)

        The speaker verification task aims to determine whether a registration speech and a test speech belong to the same speaker. A Text-Independent Speaker Verification (TISV) method based on Uncertainty Learning (UL) was proposed to address the problem that the voiceprint features extracted by speaker recognition systems are usually disturbed by factors unrelated to identity information, thereby leading to serious degradation of the system accuracy. Firstly, uncertainty was introduced in the speaker backbone network to simultaneously learn the voiceprint features (mean) and the uncertainty of the speech data (variance), so as to model the uncertainty in the speech dataset. Then, the distribution representation of the features was obtained by a resampling technique. Finally, the degradation problem in the calculation process of classification loss was solved by constraining the distribution of the noise through the introduction of KL (Kullback-Leibler) divergence regularization into the speaker classification loss. Experimental results show that after training on VoxCeleb1 and VoxCeleb2 development sets and testing on VoxCeleb1-O test set, compared with the certainty method-based model Thin ResNet34,the model of the proposed method has the Equal Error Rate (EER) reduced by 9.9% and 10.4% respectively, and minimum Detection Cost Function (minDCF) reduced by 10.9% and 4.5% respectively. It can be seen that the accuracy of the proposed method is improved in noisy and unconstrained scenarios.

        speaker verification; data uncertainty; distribution embedding; AAM-softmax (Additive Angular Margin-softmax); KL (Kullback-Leibler) divergence

        This work is partially supported by National Natural Science Foundation of China (61906115), Shanxi Province Science Foundation for Youths (20210302124556).

        ZHANG Yulian, born in 1997, M. S. candidate. Her research interests include voiceprint recognition.

        YAO Shanshan, born in 1989, Ph. D., associate professor. Her research interests include voiceprint recognition, multimedia big data search.

        WANG Chao, born in 1995, M. S. candidate. His research interests include voiceprint recognition.

        CHANG Jiang, born in 1988, Ph. D., lecturer. Her research interests include speech sentiment analysis.

        TN912.34; TP391.42

        A

        1001-9081(2023)12-3727-06

        10.11772/j.issn.1001-9081.2022121902

        2022?12?29;

        2023?03?07;

        2023?03?08。

        國家自然科學(xué)基金資助項目(61906115);山西省青年科學(xué)基金資助項目(20210302124556)。

        張玉蓮(1997—),女,山西晉城人,碩士研究生,主要研究方向:聲紋識別;姚姍姍(1989—),女,山西晉中人,副教授,博士,CCF會員,主要研究方向:聲紋識別、多媒體大數(shù)據(jù)檢索;王超(1995—),男,山西大同人,碩士研究生,主要研究方向:聲紋識別;暢江(1988—),女,山西運城人,講師,博士,主要研究方向:語音情感分析。

        猜你喜歡
        聲紋不確定性語音
        法律的兩種不確定性
        法律方法(2022年2期)2022-10-20 06:41:56
        魔力語音
        基于MATLAB的語音信號處理
        電子制作(2019年14期)2019-08-20 05:43:38
        英鎊或繼續(xù)面臨不確定性風(fēng)險
        中國外匯(2019年7期)2019-07-13 05:45:04
        基于MQ3與MP3的價廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        屏幕即指紋識別
        具有不可測動態(tài)不確定性非線性系統(tǒng)的控制
        基于數(shù)字水印的人臉與聲紋融合識別算法
        從翻譯的不確定性看譯者主體性
        久久国产成人午夜av免费影院| 色综合久久久久综合999| 国产高潮精品一区二区三区av | 在线中文字幕乱码英文字幕正常| 亚洲男人的天堂网站| 国产成人精品亚洲午夜| 狼人狠狠干首页综合网| 精品国产一区二区三区不卡在线| 亚洲av无码一区二区乱孑伦as| 在线视频制服丝袜中文字幕| 久久综合激激的五月天| 亚洲国产熟女精品传媒| 亚洲国产日韩精品一区二区三区| 青青视频一区| 中文字幕av久久激情亚洲精品| 极品粉嫩小仙女高潮喷水操av| 国产成人亚洲精品无码av大片| 久久亚洲欧洲无码中文| 亚洲中文字幕有综合久久| 国产嫩草av一区二区三区| 久久久久人妻一区精品色欧美| 啪啪无码人妻丰满熟妇| 日本视频一区二区三区三州| 亚洲午夜无码毛片av久久| 久久综合久久鬼色| 亚洲无线码一区在线观看| 亚洲在线精品一区二区三区| 亚洲热线99精品视频| 在线欧美不卡| 国产99视频一区二区三区 | 亚洲国产精品一区二区www| 最新国产一区二区精品久久| 国产一区二区三区免费小视频| 国产av自拍视频在线观看| 麻豆精品传媒一二三区| 亚洲三区二区一区视频| 91久久精品美女高潮喷白浆| 无码区a∨视频体验区30秒| 91热这里只有精品| 亚洲一区二区女优视频| 精品无码人妻夜人多侵犯18|