亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于時域波形的半監(jiān)督端到端虛假語音檢測方法

        2023-02-03 03:02:22黃澤鑫張聿晗付中華高建清劉俊華
        計算機(jī)應(yīng)用 2023年1期
        關(guān)鍵詞:監(jiān)督特征檢測

        方 昕,黃澤鑫,張聿晗,高 天*,潘 嘉,付中華,高建清,劉俊華,鄒 亮

        (1.語音及語言信息處理國家工程實驗室(中國科學(xué)技術(shù)大學(xué)),合肥 230027;2.科大訊飛股份有限公司 AI研究院,合肥 230088;3.中國礦業(yè)大學(xué) 信息與控制工程學(xué)院,江蘇 徐州 221116;4.西安訊飛超腦信息科技有限公司,西安 710000)

        0 引言

        文獻(xiàn)[1-2]中已將聲紋識別分支下的自動說話人驗證(Automatic Speaker Verification,ASV)系統(tǒng)應(yīng)用到身份識別系統(tǒng)等領(lǐng)域。隨著語音技術(shù)的發(fā)展,特別是高效語音合成、語音轉(zhuǎn)換等算法的提出,高質(zhì)量的虛假語音讓人很難分辨真?zhèn)?。Das 等[3]針對ASV 系統(tǒng)的各種欺騙攻擊進(jìn)行概述,認(rèn)為現(xiàn)有的ASV 系統(tǒng)的安全性面臨極大挑戰(zhàn)。虛假語音攻擊在詐騙、向公眾傳播負(fù)面信息等方面具有潛在威脅,因此研究虛假語音攻擊檢測技術(shù)具有迫切需求和重大意義。

        虛假語音產(chǎn)生方法主要包括邏輯形式以及物理形式。邏輯形式包含有語音合成、音色轉(zhuǎn)換等技術(shù),這類偽造方式通常是通過參數(shù)合成、深度學(xué)習(xí)模型等生成聲學(xué)特征,并通過聲碼器制造出虛假的語音信號進(jìn)行攻擊;物理形式包含有捕獲和重放語音信號等技術(shù),這類偽造方式通常使用錄音設(shè)備在暗處對目標(biāo)人進(jìn)行錄音,再由揚聲器播放目標(biāo)人的錄音進(jìn)行攻擊。自動說話人確認(rèn)欺騙攻擊與防御對策挑戰(zhàn)賽(Automatic Speaker Verification spoofing and countermeasures challenge,ASVspoof)在2015 年第一次舉辦,文獻(xiàn)[4-5]中概述了最近兩屆ASVspoof 挑戰(zhàn)賽的相關(guān)結(jié)果,學(xué)術(shù)界對假音檢測任務(wù)研究的熱度也越來越高。虛假語音檢測任務(wù)主流方法是對語音信號進(jìn)行預(yù)處理以后,提取人工設(shè)計的相關(guān)聲學(xué)特征并利用分類器判斷是否為真實語音,即利用測試語音在檢測系統(tǒng)上的得分與某個閾值比較的結(jié)果,判斷測試語音的真假。一般來說,語音相關(guān)的任務(wù)都需要在前端提取聲學(xué)特征,傳統(tǒng)的聲學(xué)特征包含有幅頻特征(如對數(shù)頻譜幅度特征和殘差對數(shù)頻譜幅度特征);相頻特征(如相對相移特征、群延遲特征、修正群延遲特征、基帶相差特征等)[6]。另外,在許多語音處理任務(wù)(例如語音識別、說話人識別)中被廣泛使用的倒譜特征(如線頻倒譜系數(shù)特征、梅爾倒譜系數(shù)特征,以及余弦正則相位倒譜系數(shù)特征與修正群延遲濾波器組倒譜系數(shù)特征等)和局部二值模式特征、i-vector 特征,以及調(diào)制特征等也被嘗試用來解決虛假語音檢測任務(wù)[7]。

        現(xiàn)有技術(shù)針對特征提取進(jìn)行了大量的實驗,嘗試尋求一種能夠有效區(qū)分虛假語音與自然語音的聲學(xué)特征。Patel等[8]在首屆ASVspoof 挑戰(zhàn)賽提出了一種基于耳蝸濾波器倒頻譜系數(shù)和瞬時頻率變化相結(jié)合的檢測器,用于檢測自然語音和欺騙語音。Witkowski 等[9]在ASVspoof2017 年的挑戰(zhàn)中提出了基于微調(diào)的常數(shù)Q 倒譜系數(shù)特征的檢測器,盡管該系統(tǒng)仍不能完全檢測出欺騙語音,但對未知語音數(shù)據(jù)表現(xiàn)出更強(qiáng)的泛化能力。一些研究發(fā)現(xiàn)相比靜態(tài)聲學(xué)特征,動態(tài)聲學(xué)特征更適用于虛假語音檢測任務(wù)。近年來,基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的特征提取算法被應(yīng)用于多個領(lǐng)域并取得成功。Tom 等[10]假設(shè)隨著錄音和回放設(shè)備的進(jìn)步,傳統(tǒng)特征的辨別能力下降,而采用端到端DNN 直接建模聲譜圖來代替手工的特征提取,實驗結(jié)果表明將原始波形應(yīng)用于虛假語音檢測較為有效。Zeinali 等[11]采用一個具有單通道對數(shù)功率譜圖特征的VGG(Visual Geometry Group)網(wǎng)絡(luò),在開發(fā)集上表現(xiàn)優(yōu)異,然而在未知的測試集上的性能顯著下降。Jung 等[12]提出了一個端到端系統(tǒng),由兩個深度神經(jīng)網(wǎng)絡(luò)組成,一個前端用于說話人原始波形嵌入特征的提取,另一個用于后端分類。

        現(xiàn)有的假音檢測方法性能仍有待提高,面臨以下問題:1)人工設(shè)計的特征往往有較強(qiáng)的針對性,在面對不同領(lǐng)域的虛假語音時,檢測器效果往往不能令人滿意。多數(shù)研究基于頻域人工特征而設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)不能對語音的時域特性進(jìn)行捕捉,訓(xùn)練過程中缺少局部特征之間的信息整合,可能造成關(guān)鍵性鑒別信息丟失,從而影響檢測效果。2)隨著虛假語音生成方式的多樣化和復(fù)雜化,訓(xùn)練模型所需的大量有標(biāo)注樣本較難獲取,以ASVspoof2019 為例,模型的生成需要50 224 條真音和已知類型的假音數(shù)據(jù)。現(xiàn)有語音數(shù)據(jù)庫中存在大量無標(biāo)注樣本,僅利用有標(biāo)注的數(shù)據(jù)訓(xùn)練模型會導(dǎo)致檢測器在面對訓(xùn)練集域外的攻擊時泛化能力顯著下降。為了解決以上問題,本文提出一種基于時域波形的半監(jiān)督端到端虛假語音檢測方法,主要工作內(nèi)容如下:

        1)提出一種以原始語音為輸入的一維卷積時域網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)中的雙路徑Res2Net(Dual-Path Res2Net,DP-Res2Net)基礎(chǔ)塊能夠擴(kuò)大感受野,整合局部信息,從而提升模型性能。該方法不提取人工聲學(xué)特征,而使用原始語音采樣數(shù)據(jù)作為輸入,最大限度地保留了數(shù)據(jù)中的關(guān)鍵鑒別信息。

        2)將無標(biāo)注語音數(shù)據(jù)加入訓(xùn)練過程,利用標(biāo)記數(shù)據(jù)和額外的未標(biāo)記數(shù)據(jù)來增強(qiáng)檢測器領(lǐng)域遷移能力,擴(kuò)大訓(xùn)練數(shù)據(jù)域的多樣性,從而使模型在面對未知的虛假語音攻擊時仍具有一定的有效性。實驗結(jié)果表明本文方法與僅利用標(biāo)注數(shù)據(jù)訓(xùn)練的模型相比,泛化能力有較大提升。

        3)將基于角度距離的損失函數(shù)與交叉熵?fù)p失函數(shù)結(jié)合,以AM-softmax 損失函數(shù)主導(dǎo)訓(xùn)練,以Cross-entropy 偽標(biāo)簽損失函數(shù)輔助訓(xùn)練,使類內(nèi)距離更小且學(xué)到的深層表征更有區(qū)分性,從而提高模型泛化能力。

        1 系統(tǒng)設(shè)計

        本文提出的系統(tǒng)及訓(xùn)練策略主要包含三個方面:一是時域網(wǎng)絡(luò)結(jié)構(gòu),整個網(wǎng)絡(luò)由淺層卷積模塊、特征融合模塊、全局平均池化組成,保留原始語音信息的完整性并增大了感受野,能大幅提升模型的泛化能力;二是結(jié)合基于附加邊際(Additive Margin,AM)的softmax 損失函數(shù)[13],增大類間距離、減小類內(nèi)距離;三是結(jié)合交叉?zhèn)螛?biāo)簽半監(jiān)督訓(xùn)練方法[14],利用未標(biāo)注數(shù)據(jù)訓(xùn)練模型,以進(jìn)一步提高模型泛化能力。

        1.1 時域網(wǎng)絡(luò)結(jié)構(gòu)

        受文獻(xiàn)[15-16]中關(guān)于殘差網(wǎng)絡(luò)(Residual Network,ResNet)、Res2Net 相關(guān)研究的啟發(fā),本文結(jié)合最近的雙路徑DP(Dual Path)-Res2Net 結(jié)構(gòu)[17],提出一種基于時域波形的端到端虛假語音檢測方法,其框架如圖1 所示。

        圖1 基于一維卷積的DP-Res2Net結(jié)構(gòu)Fig.1 Structure of DP-Res2Net based on one-dimensional convolution

        本文系統(tǒng)的輸入為原始語音波形(96 000采樣點);淺層卷積模塊由數(shù)個一維卷積層(Conv1d)、一維最大池化層(Maxpool1d)、一維批歸一化層(Batch Normalization,BN)以及帶泄露修正線 性單元(Leaky Rectified Linear Unit,LeakyReLU)激活函數(shù)組成,可從原始語音信號提取淺層特征;該網(wǎng)絡(luò)結(jié)構(gòu)的特征融合模塊由DP-Res2Net-basic-block和一維最大池化層交替組成,其中,基礎(chǔ)塊的結(jié)構(gòu)如圖2[17]所示。

        圖2 DP-Res2Net-basic-block結(jié)構(gòu)Fig.2 DP-Res2Net-basic-block structure

        每個塊的輸入經(jīng)過1 維卷積層后分成4 份,即xi(i∈{1,2,3,4})。除了x4外都經(jīng)過一個卷積核大小為1 的Ki以及一個卷積核大小為3 的Li卷積濾波器處理,并且xi會加上L(i-1)再送入Ki,計算公式如式(1):

        將基礎(chǔ)塊的輸入與融合了z1~z4的特征圖相加得到基礎(chǔ)塊的輸出這種雙路徑的殘差式連接增加了可能的接受域,融合了多個特征圖的信息,在面對未知的虛假語音攻擊方式時可以提高網(wǎng)絡(luò)的性能。

        1.2 損失函數(shù)的使用

        AM-softmax-loss 在人臉識別以及說話人識別任務(wù)中表現(xiàn)較為優(yōu)異。本文系統(tǒng)引入AM-softmax-loss,并與交叉熵進(jìn)行融合。其中,AM-softmax-loss 定義如下:

        其中:cos為樣本i輸出特征向量與模型權(quán)重向量的余弦角度;m為角度余量;s為尺度因子用以加速收斂;N為當(dāng)前minibatch 的大小。通過控制角度余量m,來達(dá)到使同類相似度比最大的非同類相似度更大的目的。

        在測試過程中,此處假設(shè)第0 類為虛假語音,第1 類為真實語音。從最后一層全連接層中得到cos,該變量的最大值即為樣本i的得分,最大值所對應(yīng)的索引即為樣本i的預(yù)測類別。

        1.3 訓(xùn)練策略

        給定N個標(biāo)記語音的集合DL和M個未標(biāo)記圖像的集合DU,半監(jiān)督虛假語音任務(wù)旨在通過探索標(biāo)記和未標(biāo)記語音來學(xué)習(xí)判別網(wǎng)絡(luò)。本文分別利用Kaiming Initialization[18]和Xavier Initialization[19]兩種不同的網(wǎng)絡(luò)初始化對檢測網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化。本文方法由兩個并行的檢測模型組成:

        如圖3 所示,這兩個網(wǎng)絡(luò)具有相同的結(jié)構(gòu),但二者的權(quán)重θ1和θ2初始化不同。輸入input(x)具有相同的特征處理,score1 和score2 是判別后的置信概率,是softmax 歸一化后的網(wǎng)絡(luò)輸出。所用方法邏輯說明如下:

        圖3 交叉標(biāo)簽半監(jiān)督訓(xùn)練流程Fig.3 Cross-label semi-supervised training process

        這里Pseudo label 是預(yù)測的one-hot 偽標(biāo)簽。訓(xùn)練目標(biāo)包含兩個損失:有監(jiān)督學(xué)習(xí)損失Ls(Supervised Learning Loss)和半監(jiān)督學(xué)習(xí)損失Lssl(Semi-supervised Learning Loss)。Ls是使用兩個并行判別網(wǎng)絡(luò)上標(biāo)記語音的AM-softmax-loss:

        未標(biāo)記數(shù)據(jù)上的交叉Lssl為:

        整個訓(xùn)練程中的總損失是標(biāo)記和未標(biāo)記數(shù)據(jù)損失的組合:

        其中λ是權(quán)衡權(quán)重。

        其中:length為超參數(shù);epoch為當(dāng)前訓(xùn)練周期。

        2 實驗與結(jié)果分析

        2.1 實驗數(shù)據(jù)

        本文所用數(shù)據(jù)集來源于ASVspoof2019 中的邏輯訪問Logical Access,LA)和深度偽造(Deep Fake,DF)公開數(shù)據(jù)集,ASVspoof2019LA 數(shù)據(jù)集中虛假語音包含文本語音合成以及音色轉(zhuǎn)換等邏輯層面的造假方式。其中,訓(xùn)練集與開發(fā)集包含了相同的造假方式(2 種音色轉(zhuǎn)換和4 種文本語音合成),測試集1 則包含了除此之外的其他造假方式。為了進(jìn)一步測試所提系統(tǒng)的泛化能力,本文引入了其他未知類型的語音數(shù)據(jù),如VCC(Voice Conversion Challenge)作為測試集2。數(shù)據(jù)集具體構(gòu)成如表1 所示。

        表1 實驗數(shù)據(jù)集Tab.1 Experimental datasets

        2.2 數(shù)據(jù)預(yù)處理

        本文對訓(xùn)練集進(jìn)行速度擾動處理,從而實現(xiàn)了數(shù)據(jù)增強(qiáng)。特征使用96 000 時域采樣點(16 kHz 進(jìn)行采樣),針對采樣點不足和多于96 000 點的樣本,采用復(fù)制擴(kuò)充和截取的方式,以保證相同的特征維度。

        2.3 與基線系統(tǒng)的對比

        本節(jié)將本文提出的半監(jiān)督方法與ASVspoof2021 DF 比賽中官方公布的4 個基線系統(tǒng)進(jìn)行比較,評價指標(biāo)為等錯誤率(Equal Error Rate,EER)。EER 是指錯誤接受的比例等于錯誤拒絕的比例時的概率值,對比結(jié)果如表2 所示。四個基線系統(tǒng)中,B03 和B04 性能較好,EER 分別為23.48% 和22.38%。本文提出的半監(jiān)督DP-Res2Net 系統(tǒng)EER 得分為19.97%,相較于官方公布的基線效果有了較大提升。

        表2 基線系統(tǒng)和DP-Res2Net系統(tǒng)的對比Tab.2 Comparison between baseline systems and DP-Res2Net system

        鑒于假音樣本較多,本文以1∶1 的真音假音比例在ASVspoof2021DF 數(shù)據(jù)集上隨機(jī)采樣,并利用t 分布隨機(jī)鄰域嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)對中間特征進(jìn)行可視化,如圖4 所示。其中:bona 代表真音樣本,spoof 代表假音樣本??梢?,針對兩類樣本,網(wǎng)絡(luò)所提取的特征分布存在較大差異,特征對真假音檢測具有一定的區(qū)分能力。

        圖4 在ASVspoof2021DF數(shù)據(jù)集上隨機(jī)采樣的t-SNE可視化Fig.4 Visualization of t-SNE randomly sampled on ASVspoof2021DF dataset

        2.4 SSL-DP-Res2Net結(jié)構(gòu)有效性

        對采用不同訓(xùn)練策略(監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)策略)的DP-Res2Net 進(jìn)行對比,結(jié)果如表3 所示。從表3 中可以看出,基于半監(jiān)督策略下訓(xùn)練得到的模型SSL-DP-Res2Net 性能在不同測試集上均有較大提升。從表3 中還可以看出,采用VCC 數(shù)據(jù)進(jìn)行測試時,訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的分布存在較大的差異,本文提出的半監(jiān)督檢測網(wǎng)絡(luò)取得的EER 為30.60%,雖然弱于使用ASVspoof2021DF 數(shù)據(jù)為測試集時的性能(19.97%),但顯著優(yōu)于有監(jiān)督學(xué)習(xí)方法(38.11%)??梢?,本文所提出的基于時域波形的半監(jiān)督虛假語音檢測方法具有較好的泛化能力;然而,檢測器性能仍有待提高,跨域的虛假語音檢測仍是一項具有挑戰(zhàn)性的工作。

        表3 不同訓(xùn)練策略在不同測試集上的EER對比 單位:%Tab.3 EER comparison of different training strategies on different test sets unit:%

        3 結(jié)語

        虛假語音攻擊在詐騙、向公眾傳播負(fù)面信息等方面具有潛在威脅,研究虛假語音攻擊檢測技術(shù)具有迫切需求和重大意義。本文提出一種不依賴于人工特征的、基于原始音頻時域波形的半監(jiān)督學(xué)習(xí)端到端虛假語音檢測方法,主要包括:其一,提出一種以原始語音為輸入的基于一維卷積的時域網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)中的DP-Res2Net 基礎(chǔ)塊能夠擴(kuò)大感受野,實現(xiàn)信息融合;其二,將無標(biāo)簽語音數(shù)據(jù)加入訓(xùn)練過程,擴(kuò)大訓(xùn)練數(shù)據(jù)的多樣性使模型在面對未知類型的虛假語音攻擊時仍具有有效性;其三,在訓(xùn)練過程中將基于角度距離的損失函數(shù)與交叉熵?fù)p失函數(shù)結(jié)合,以AM-softmax 損失函數(shù)主導(dǎo)訓(xùn)練,以交叉熵偽標(biāo)簽損失函數(shù)輔助訓(xùn)練,以減小類內(nèi)距離、增大類間距離,提高模型的泛化能力。本文在公開數(shù)據(jù)集ASVspoof2021 及VCC 上的表現(xiàn)驗證了算法的有效性。但本文系統(tǒng)也存在一定不足,在Deep Fake 任務(wù)中,系統(tǒng)所表現(xiàn)出的檢測性能仍有很大提升空間,如何更好地利用無標(biāo)簽跨域數(shù)據(jù)是提升檢測器性能的關(guān)鍵;另一方面,可以對提取的時域語音特征進(jìn)一步挖掘處理,提高檢測性能。

        猜你喜歡
        監(jiān)督特征檢測
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        突出“四個注重” 預(yù)算監(jiān)督顯實效
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        監(jiān)督見成效 舊貌換新顏
        夯實監(jiān)督之基
        小波變換在PCB缺陷檢測中的應(yīng)用
        国产区高清在线一区二区三区| 亚洲国产精品久久九色| 欧美寡妇xxxx黑人猛交| 性感女教师在线免费观看| 国内自拍第一区二区三区| 欧美在线三级艳情网站| 日本高清视频永久网站www| 91九色视频在线国产| 超高清丝袜美腿视频在线| 真人男女做爰无遮挡免费视频| 国产va免费精品高清在线观看| 老熟女富婆激情刺激对白| 国产特黄1区2区3区4区| 2021年国产精品每日更新| 国产高颜值大学生情侣酒店| 国产精品理论片在线观看| aa日韩免费精品视频一| 日本岛国大片不卡人妻| 国产精品无码精品久久久| 天堂资源中文最新版在线一区 | 日韩肥臀人妻中文字幕一区| 亚洲黄色一插一抽动态图在线看 | 玩弄白嫩少妇xxxxx性| 国产剧情av麻豆香蕉精品| 亚洲av性色精品国产| 国产自在自线午夜精品视频在 | 亚洲影院在线观看av| 中文字幕人成人乱码亚洲| 熟妇丰满多毛的大隂户| 最新欧美精品一区二区三区| 开心五月骚婷婷综合网| 青青自拍视频成人免费观看| 国产成人久久蜜一区二区| 日本大片免费观看完整视频| 精品亚洲一区二区三区在线观看| 亚洲av无码日韩av无码网站冲| 东京热加勒比视频一区| 日韩亚洲在线一区二区| 国产精品,在线点播影院| 91视频爱爱| 乱码一二区在线亚洲|