亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于對抗網(wǎng)絡的聲紋識別域遷移算法

        2022-04-29 02:29:36季敏飛
        關鍵詞:聲紋識別鑒別器源域

        季敏飛, 陳 寧

        ( 華東理工大學信息科學與工程學院,上海 200237)

        聲紋識別作為身份驗證的一種手段,已經(jīng)廣泛應用于實際生活中。但在大多數(shù)的實際應用場景中,由于實際應用數(shù)據(jù)與訓練數(shù)據(jù)在內(nèi)部特征(例如情感、語言[1]、說話風格、年齡等)或者外部特征 (例如背景噪聲、傳輸信道、麥克風、室內(nèi)混響等)上存在的差異,導致訓練的模型在實際應用場景下的性能大幅下降。同時由于實際場景中數(shù)據(jù)相對匱乏,無法獲得可用于模型訓練的足夠數(shù)據(jù)對模型進行重新訓練,因此,如何對原有的模型進行域遷移使其在目標域上達到較好的效果成為一個重要的問題。

        為了解決以上問題,研究人員提出了許多適合聲紋識別的域遷移方法。以在I-Vector[2]聲紋識別模型的域遷移為例,文獻[3]首先在I-Vector 模型基礎上探討了域不匹配的問題,然后采用了一些聚類方法來解決該問題。文獻[4]在文獻[3]基礎上提出了基于PLDA (Probabilistic Linear Discriminant Analysis)的I-Vector 聲紋識別模型域遷移框架,通過使用一個域外的PLDA 判別模型去歸類域內(nèi)數(shù)據(jù),再根據(jù)這些數(shù)據(jù)重新調(diào)整PLDA 判別器的參數(shù)。文獻[5]使用DICN 技術(shù)將域內(nèi)、域外數(shù)據(jù)重新映射到第3 個空間,并通過使用一小部分域內(nèi)數(shù)據(jù)提升PLDA判別器的效果。文獻[6]提出了一個無監(jiān)督的域遷移方法,通過調(diào)整域內(nèi)、域外之間的協(xié)方差來解決域不適配的問題。文獻[7]提出了基于 COR relation Alignment(CORAL)的域遷移方法,通過對齊兩個域之間的二階統(tǒng)計量來實現(xiàn)域遷移, 并且不需要任何標簽。在此基礎上,文獻[8]將CORAL 域遷移技術(shù)應用到基于I-Vector 以及X-Vector[9-10]的聲紋識別模型,得到CORAL+模型。

        最近,基于深度學習的域遷移算法成為新的研究熱點。文獻[11]運用mix-PLDA 和TBC-PLDA 來提升系統(tǒng)的魯棒性。文獻[12]提出了一個新的端到端域遷移方法,通過引入對抗損失來解決聲紋識別中語言不匹配的問題。文獻[13]同樣借助對抗思想,通過DANN 的方法來實現(xiàn)聲紋識別的域遷移。

        在文獻[14]中,研究人員首次引入生成對抗網(wǎng)絡(Generative Adversarial Network, GAN)來解決聲音場景分類 (Acoustic Scene Classification, ASC) 任務中域不匹配的問題,利用少量目標域數(shù)據(jù)來調(diào)整網(wǎng)絡模型,提高模型在未知數(shù)據(jù)集上的分類準確率。本文對文獻[14]提出的用于聲音場景分類的域遷移算法進行了研究和改進,并將其應用到基于XVector 的聲紋識別模型的域遷移上。聲紋識別任務與文獻[14]中的聲音場景分類任務存在較大的差異,主要表現(xiàn)為:(1)文獻[14]中聲音場景分類任務中源域和目標域的標簽類別是保持不變的,而在聲紋識別任務中,由于源域和目標域的說話人不同,因此分類的標簽也發(fā)生了變化;(2)與聲學場景分類任務相比,聲紋識別任務中類的個數(shù)多了很多,這就加大了分類的難度;(3)文獻[14]的實驗中,源域數(shù)據(jù)和目標域數(shù)據(jù)的差異主要來自于錄制設備、采樣頻率等,而在本文的實驗中,源域數(shù)據(jù)和目標域數(shù)據(jù)存在說話人、語種、環(huán)境以及噪聲等多方面的不同,差異更大。為了適應新的任務,本文對文獻[14]提出的遷移模型進行了兩方面改進:首先,重新設計鑒別器網(wǎng)絡結(jié)構(gòu)以便適合聲紋識別任務;其次,在遷移后為了確保特征提取模型在說話人分類中的性能不下降,使用源域標注樣本對特征提取模塊進行調(diào)整。

        1 算法模型

        1.1 X-Vector 特征向量提取方法

        X-Vector 特征向量提取模型框圖如圖1 所示。該模型以梅爾倒譜系數(shù) (Mei-Frequency Cepstrum Coefficient, MFCC)為輸入,由時延神經(jīng)網(wǎng)絡(Time Delay Neural Network, TDNN)、統(tǒng)計池化層和全連接層組成。其中TDNN 主要用于提取語音所包含的時序特性;統(tǒng)計池化層的作用是將整個時序特征進行聚合。該模型訓練完成后,取第一個全連接層的輸出作為X-Vector 特征向量。

        圖1 X-Vector 模型框圖Fig. 1 Block diagram of X-Vector model

        1.2 遷移模型

        圖2 GAN-DASV 模型框圖Fig. 2 Block diagram of GAN-DASV model

        將已經(jīng)在源域A(S)上訓練好的特征提取模型E(S)對目標域訓練數(shù)據(jù)A(T1)進行遷移學習,從而獲取更適合目標域的特征提取模型E(T)。遷移后的模型性能將在目標域測試集A(T2)上進行測試。算法主要分為3 個步驟,其中域遷移過程不需要目標域訓練集標簽。

        其中,C為說話人分類器。

        1.2.2 從源域到目標域的遷移 如圖2(b)所示,在源域到目標域的遷移階段,將在源域A(S)上訓練好的模型E(S)遷移至目標域數(shù)據(jù)集A(T)。

        首先,采用E(S)的參數(shù)對目標域特征提取模型E(T)進行初始化,并采用隨機初始化的方法對鑒別器D進行初始化。然后,采用生成對抗網(wǎng)絡[15]的訓練思想,將E(T)和D分別看成是生成對抗網(wǎng)絡中的生成器和鑒別器,并對它們進行交替訓練,使E(T)(A(T1))和E(S)(A(S))的數(shù)據(jù)分布盡可能相似。其中鑒別器D用于區(qū)分輸入的E(S)(A(S))或E(T)(A(T1))來自于源域還是目標域。而目標域特征提取模型E(T)則用于混淆鑒別器的判斷,使其無法分辨E(T)(A(T1))究竟來自于源域還是目標域。在此過程中用于訓練的D和E(T)的損失函數(shù)L(D)和L(E(T)) 分別如式(2)和式(3)所示。

        在每次D和E(T)交替訓練的過程中,為了保證不降低E(T)提取說話人特征的能力,將源域數(shù)據(jù)A(S)輸入新的E(T)和C,進行說話人類別分類的訓練,這也是本文對文獻[14]的一種改進。除此之外,為了減少模型訓練過程中的震蕩,參照文獻[16]的方法,將鑒別器的輸入進行調(diào)整,將歷史數(shù)據(jù)與最新數(shù)據(jù)進行混合作為其輸入。

        1.2.3 遷移模型測試 如圖2(c)中所示,在測試階段,采用遷移學習獲得的X-Vector 模型E(T)提取目標域測試集A(T2)中樣本的特征,并采用基于PLDA或余弦評分(Cosine Distance Scoring, CDS) 算法對其進行打分。

        2 實驗過程

        實驗階段的主要任務是驗證本文提出的模型從源域到目標域上遷移的可行性。為了模擬實際場景中目標域數(shù)據(jù)集不足的情況,實驗中選取的目標域數(shù)據(jù)集的大小將遠遠小于源域數(shù)據(jù)的大小。同時,實驗中X-Vector 通過PyTorch 來實現(xiàn),而PLDA 鑒別器則采用了Kaldi 上提供的程序。

        2.1 數(shù)據(jù)庫

        實驗采用 AISHELL1[17]為源域數(shù)據(jù)集,VoxCeleb1[18]和CN-Celeb[19]為目標域數(shù)據(jù)集。

        AISHELL1 是希爾貝殼公司提供的開源中文普通話語音數(shù)據(jù)集,它包含了178 h 的錄音,由400 個說話人構(gòu)成。在實驗中,為了更好地顯示本文算法的遷移效果,只采用了源數(shù)據(jù)集一半的樣本,由隨機挑選的來自于340 個說話人的50 000 條語音片段組成。

        VoxCeleb1 數(shù)據(jù)集包含了取自YouTube 的1 251個說話人超過100 000 條語音片段。實驗隨機選取了VoxCeleb1 訓練集中的3 400 個語音片段構(gòu)成目標域訓練集,將VoxCeleb1 的測試集作為目標域測試集。

        CN-Celeb 是由清華大學提供的開源的中文普通話語音數(shù)據(jù)庫。它包含1 000 位中國名人的130 000條語音片段、11 種語音題材,共計274 h。同樣從CN-Celeb 提供的訓練集上隨機選取了2 500 條數(shù)據(jù)作為目標域訓練集,并將該數(shù)據(jù)集的測試集作為本實驗的測試集。

        VoxCeleb1 和CN-Celeb 被選為目標域數(shù)據(jù)集的原因是它們與源域數(shù)據(jù)集存在如下差異:

        (1) VoxCeleb1 與AISHELL1 之間的語言不同,前者為英語,后者為普通話。

        (2) CN-Celeb 與AISHELL1 相比,CN-Celeb 為非約束數(shù)據(jù)集,其包含如娛樂、訪問、直播等場景,在聲紋識別任務上更具挑戰(zhàn)性。

        (3) 無論是VoxCeleb1 還是CN-Celeb,其信噪比都小于AISHELL1。

        2.2 模型參數(shù)的設置

        實驗中,將輸入的音頻分為長度為25 ms 的語音幀,并提取每幀語音的23 維梅爾倒譜系數(shù)作為XVector 模型的輸入。X-Vector 和鑒別器的網(wǎng)絡結(jié)構(gòu)分別如表1、表2 所示。將X-Vector 網(wǎng)絡中第1 個全連接層的輸出作為鑒別器的輸入,采用 Adam 優(yōu)化器[20],批次大小和學習率分別設置為128 和0.001。將得到的模型在目標域測試數(shù)據(jù)集A(T2)上進行測試來驗證它的性能。

        表1 X-Vector 網(wǎng)絡結(jié)構(gòu)Table 1 Network structure of X-Vector model

        表2 鑒別器網(wǎng)絡結(jié)構(gòu)Table 2 Network structure of discriminator

        2.3 實驗結(jié)果

        2.3.1 遷移前后性能對比 分別采用基于PLDA 和余弦評分(Cosine Distance Scoring, CDS)的打分方式對輸出的X-Vector 特征向量進行打分。其中,基于PLDA 的打分方式具有很好的信道補償能力,而基于CDS 的打分方式能更直觀地觀察到遷移對模型性能提升的效果。在遷移前后用于訓練PLDA 的數(shù)據(jù)分別為遷移前后目標域訓練數(shù)據(jù)集上提取的XVector 特征向量,實驗結(jié)果如表3 所示。可以看出,在目標域測試集上,無論選用PLDA 還是CDS 的打分方式,本文提出的域遷移算法均可有效降低聲紋識別的等錯誤率(Equal Error Rate, EER)。以基于PLDA 的打分方式為例,經(jīng)過域遷移后,在VoxCeleb1和CN-Celeb 目標域測試集上,EER 分別下降了21.46%和19.24%。EER 越小模型性能越好。

        表3 遷移前后性能對比Table 3 Performance comparison before and after domain adaptation

        2.3.2 與傳統(tǒng)遷移方法性能對比 為驗證本文方法的優(yōu)越性,將本文方法與基于DANN[21]的遷移方法進行對比,結(jié)果分別如表4 和圖3 所示。分別采用EER、最小檢測代價(Minimum Detection Cost Function,DCF)、拒識率曲線(Detection Error Tradeoff, DET)作為衡量指標,其中DET 曲線越靠近左下角,表明性能越好。表4 和圖3所示的實驗結(jié)果表明,在兩個目標域測試集上,本文方法的3 種衡量指標均優(yōu)于基于DANN 的域遷移算法。

        表4 本文算法與DANN 算法對比Table 4 Performance comparison between this paper and DANN

        圖3 域遷移前后DET 曲線對比Fig. 3 DET Curves comparison before and after domain adaptation

        3 結(jié)束語

        本文提出了一種面向聲紋識別域遷移的模型。該模型可利用少量的無標簽目標域樣本實現(xiàn)域遷移學習。與遷移前相比,可在VoxCeleb1 和CN-Celeb數(shù)據(jù)集上實現(xiàn)21.46%和19.24%的EER 的提升。

        將來,我們還會嘗試引入新的生成對抗網(wǎng)絡,如CycleGan,進行相關研究,以進一步提升模型的性能。

        猜你喜歡
        聲紋識別鑒別器源域
        多源域適應方法綜述
        基于多鑒別器生成對抗網(wǎng)絡的時間序列生成模型
        通信學報(2022年10期)2023-01-09 12:33:40
        基于參數(shù)字典的多源域自適應學習算法
        衛(wèi)星導航信號無模糊抗多徑碼相關參考波形設計技術(shù)*
        聲紋識別中的區(qū)分性訓練
        淺談一種基于聲紋識別的教室上課點名系統(tǒng)
        基于i—vector聲紋識別上課點名系統(tǒng)的設計與實現(xiàn)
        陣列天線DOA跟蹤環(huán)路鑒別器性能分析
        面向移動終端的語音簽到系統(tǒng)
        可遷移測度準則下的協(xié)變量偏移修正多源集成方法
        日韩精品一区二区三区中文| 亚洲天堂av中文字幕| 日本系列有码字幕中文字幕| 97精品国产一区二区三区| 成熟人妻av无码专区| 亚洲欧美成人中文在线网站| 久久开心婷婷综合中文 | 日本不卡一区二区三区在线| 国产亚洲av看码精品永久| 久久香蕉国产线熟妇人妻| 亚洲夜夜骑| 亚洲一区二区三区国产精品视频| 蜜桃尤物在线视频免费看| 国产免费av片在线观看| 亚洲VA中文字幕无码毛片春药 | 亚洲免费女女在线视频网站| av鲁丝一区鲁丝二区鲁丝三区| 亚洲成aⅴ人在线观看| 国产一区二区三区四区色| 久久久精品人妻一区二区三区妖精| 国产麻传媒精品国产av| 亚洲亚洲网站三级片在线| 亚洲第一页在线免费观看| 欧美丰满少妇xxxx性| 亚洲色无码播放| 丁香九月综合激情| 91三级在线观看免费| 国模丽丽啪啪一区二区| 欧美成人在线A免费观看| 日韩人妻大奶子生活片| 国产精品永久久久久久久久久| 无码一区二区三区老色鬼 | 网址视频在线成人亚洲| 国产精品办公室沙发| a级国产乱理伦片| 色先锋资源久久综合5566| 亚洲24小时在线免费视频网站| 国产实拍日韩精品av在线| 野狼第一精品社区| 日本一区二区三区中文字幕最新| 国产激情一区二区三区不卡av |