亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

音頻鑒偽檢測(cè)與防御技術(shù)研究*

2023-02-23 04:55:08鄭榕孟凡芹王志宣

警察技術(shù) 2023年1期

鄭榕孟凡芹王志宣

1. 北京遠(yuǎn)鑒信息技術(shù)有限公司研究院 2. 公安部第一研究所 3. 多維身份識(shí)別與可信認(rèn)證技術(shù)國(guó)家工程研究中心

引言

人工智能生成內(nèi)容（Artificial Intelligence Generated Content，AIGC）正在快速興起，通過(guò)人工智能算法對(duì)數(shù)據(jù)或內(nèi)容進(jìn)行生產(chǎn)和編輯，重塑數(shù)字內(nèi)容的生產(chǎn)和消費(fèi)模式[1]。語(yǔ)音是人機(jī)交互的的主要接口，伴隨著人工智能技術(shù)的興起和新設(shè)備不斷推出，得到了快速發(fā)展，其中一些只能通過(guò)語(yǔ)音命令或聲音交互進(jìn)行操作，這為黑客或破壞者提供了攻擊的機(jī)會(huì)，特別是涉及語(yǔ)音欺詐或者深度合成（Deep Synthesis）語(yǔ)音方面[2]，達(dá)到以假亂真的程度，輕松實(shí)現(xiàn)變聲、聲音克隆等。技術(shù)濫用后很可能使得偽造生成內(nèi)容通過(guò)互聯(lián)網(wǎng)和電信網(wǎng)廣泛傳播，造成虛假身份、虛假信息、違法違規(guī)內(nèi)容流出或傳播，給檢測(cè)、追溯、監(jiān)管等造成嚴(yán)重困難。

隨著深度學(xué)習(xí)技術(shù)的發(fā)展，典型人機(jī)交互系統(tǒng)例如聲紋識(shí)別系統(tǒng)、語(yǔ)音控制系統(tǒng)等，在走向?qū)嶋H應(yīng)用的過(guò)程中易受語(yǔ)音欺騙的攻擊[3]。語(yǔ)音欺騙攻擊利用各種算法生成與特定說(shuō)話(huà)人或特定內(nèi)容盡可能相似的語(yǔ)音，包括語(yǔ)音合成、聲音轉(zhuǎn)換、錄音重放、語(yǔ)音拼接和對(duì)抗樣本等形式。

語(yǔ)音欺騙主要可分為物理訪(fǎng)問(wèn)（Physical Access）攻擊和邏輯訪(fǎng)問(wèn)（Logical Access）攻擊。物理攻擊通常經(jīng)過(guò)了聲音采集環(huán)節(jié)，通過(guò)APP、HTML5頁(yè)面等形式，例如錄音重放。邏輯攻擊通常是通過(guò)調(diào)用SDK/API、服務(wù)接口完成攻擊，例如語(yǔ)音合成、聲音轉(zhuǎn)換、聲音克隆等。實(shí)際應(yīng)用中需要鑒別各種來(lái)源音頻或視頻中音軌數(shù)據(jù)的真?zhèn)?，包括?lái)自互聯(lián)網(wǎng)和電信網(wǎng)等復(fù)雜多樣的音頻數(shù)據(jù)。音頻鑒偽是將音頻數(shù)據(jù)輸送到自動(dòng)音頻鑒偽系統(tǒng)中，通過(guò)系統(tǒng)輸出的相似度判決是否為偽造音頻。本文結(jié)合音頻鑒偽檢測(cè)典型系統(tǒng)和技術(shù)發(fā)展歷程，開(kāi)展了音頻鑒偽檢測(cè)與防御技術(shù)研究，旨在提升實(shí)際應(yīng)用場(chǎng)景中音頻鑒偽檢測(cè)的通用性和泛化能力。

一、音頻鑒偽檢測(cè)與攻防對(duì)抗

（一）典型系統(tǒng)

典型的音頻鑒偽檢測(cè)技術(shù)需支持傳統(tǒng)偽造音頻以及深度合成音頻的檢測(cè)，如音頻增刪拼接偽造、語(yǔ)音身份風(fēng)格偽造、音色偽造、韻律偽造和聲音轉(zhuǎn)換等各種類(lèi)型的偽造音頻[4]。鑒偽檢測(cè)系統(tǒng)流程如圖1所示。

訓(xùn)練階段：把真實(shí)音頻和偽造音頻的波形或特征輸入分類(lèi)網(wǎng)絡(luò)或分類(lèi)器，例如門(mén)控循環(huán)單元（Gated Recurrent Unit，GRU）或者輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)（Light Convolutional Neural Network，LCNN）等，迭代訓(xùn)練網(wǎng)絡(luò)，最后得到真實(shí)音頻和偽造音頻的分類(lèi)模型。非端到端分類(lèi)網(wǎng)絡(luò)中通常前置音頻特征提取模塊。

檢測(cè)階段：把待測(cè)音頻的波形或特征輸入到鑒偽檢測(cè)模型，計(jì)算相似度并與預(yù)設(shè)閾值進(jìn)行比較，得到檢測(cè)判決結(jié)果。

聲音模仿和錄音重放，實(shí)現(xiàn)成本較低，通過(guò)簡(jiǎn)單的錄音設(shè)備即可實(shí)現(xiàn)。利用開(kāi)源算法工具，語(yǔ)音合成和聲音轉(zhuǎn)換的偽造門(mén)檻不斷降低。攻防技術(shù)手段不斷升級(jí)，偽造攻擊可以是單點(diǎn)攻擊但是檢測(cè)防御需要做到線(xiàn)防御或面防御。隨著變分自編碼器、生成對(duì)抗網(wǎng)絡(luò)、流模型、擴(kuò)散模型等技術(shù)的發(fā)展，攻擊技術(shù)手段不斷提升，例如聲音轉(zhuǎn)換逐漸朝著小樣本、輕量化、多對(duì)多轉(zhuǎn)換的技術(shù)路線(xiàn)發(fā)展。語(yǔ)音合成逐步提升韻律音色合成的穩(wěn)定性、個(gè)性化和表現(xiàn)力。錄音重放基于各種新推出的采集設(shè)備、播放設(shè)備、錄音設(shè)備，以及錄放過(guò)程中引入的各種環(huán)境噪聲。

隨著錄音設(shè)備質(zhì)量的提高和語(yǔ)音合成、聲音轉(zhuǎn)換等語(yǔ)音智能處理技術(shù)的發(fā)展，特別是深度合成技術(shù)的深入應(yīng)用，真實(shí)音頻與人工生成后的音頻將越來(lái)越難以區(qū)分，給語(yǔ)音防欺騙檢測(cè)和自動(dòng)聲紋識(shí)別系統(tǒng)的安全性帶來(lái)嚴(yán)峻的挑戰(zhàn)。當(dāng)前技術(shù)應(yīng)用主要存在以下幾方面的局限性：

攻防對(duì)抗頻繁：鑒別技術(shù)提出之后會(huì)有針對(duì)該鑒別技術(shù)的對(duì)抗方式出現(xiàn)，攻防對(duì)抗非常頻繁。

泛化能力不足：通常鑒偽技術(shù)只針對(duì)特定生成模型，對(duì)未見(jiàn)場(chǎng)景或者遷移后的性能下降明顯，比如在跨域跨場(chǎng)景或多種數(shù)據(jù)來(lái)源的數(shù)據(jù)場(chǎng)景中性能下降，實(shí)際應(yīng)用中會(huì)遇到長(zhǎng)尾分布問(wèn)題導(dǎo)致效果不佳，這些問(wèn)題均要求檢測(cè)模型具備更好的泛化能力和通用性。

深度學(xué)習(xí)效果有待提升：通常方法是先將原始音頻數(shù)據(jù)預(yù)處理成特征，再把特征輸入神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)和其他模塊分別訓(xùn)練以提升整體模型的效果，由于各個(gè)模塊的最優(yōu)解結(jié)合后并不一定是全局最優(yōu)，因此深度學(xué)習(xí)的效果發(fā)揮還不夠充分。

音頻鑒偽攻防對(duì)抗中，進(jìn)一步研究真實(shí)音頻與偽造音頻之間差異性及有效解釋?zhuān)瑧?yīng)對(duì)復(fù)雜多樣音頻鑒偽的通用能力，提升基于深度學(xué)習(xí)的檢測(cè)防御能力，特別是端到端音頻鑒偽系統(tǒng)性能、多系統(tǒng)融合鑒偽等方面，受到越來(lái)越多的重視。

（二）發(fā)展歷程

國(guó)際上對(duì)語(yǔ)音防欺騙這一問(wèn)題持續(xù)關(guān)注，并從2015年至2021年連續(xù)舉辦了四屆聲紋防攻擊挑戰(zhàn)賽（Automatic Speaker Verification and Spoofing Countermeasures Challenge，ASVspoof）[5]。最早關(guān)注合成轉(zhuǎn)換類(lèi)攻擊，然后是錄音重放攻擊，最近一屆挑戰(zhàn)賽細(xì)分為合成轉(zhuǎn)換賽道、錄音重放賽道和深偽賽道。挑戰(zhàn)賽的舉辦極大地推動(dòng)了語(yǔ)音防欺騙技術(shù)的進(jìn)步。國(guó)內(nèi)外研究單位聯(lián)合在語(yǔ)音領(lǐng)域會(huì)議ICASSP2022上舉辦首屆語(yǔ)音深度合成鑒別挑戰(zhàn)賽（Audio Deep Synthesis Detection Challenge，ADD2022）[6]，推動(dòng)研究人員提出具有創(chuàng)新性的算法，促進(jìn)音頻鑒偽領(lǐng)域的技術(shù)發(fā)展。語(yǔ)音領(lǐng)域會(huì)議INTERSPEECH2022上舉辦了首屆欺騙感知聲紋確認(rèn)挑戰(zhàn)賽（Spoofing-Aware Speaker Verification Challenge，SASV2022）[7]，旨在促進(jìn)聯(lián)合優(yōu)化解決方案的研究，以完成傳統(tǒng)上分別優(yōu)化的音頻鑒偽和聲紋識(shí)別任務(wù)。

二、音頻鑒偽技術(shù)路線(xiàn)

當(dāng)前音頻鑒偽主要可分為特征工程和深度學(xué)習(xí)兩種技術(shù)路線(xiàn)。特征工程是提取多種頻譜特征或?qū)︻l譜提取器的改進(jìn)，例如梅爾倒譜、線(xiàn)性倒譜等濾波器組頻譜，屬于根據(jù)專(zhuān)家知識(shí)設(shè)計(jì)的濾波器組。深度學(xué)習(xí)技術(shù)思路一方面可用于改進(jìn)特征提取，例如基于深度神經(jīng)網(wǎng)絡(luò)的濾波器提取器優(yōu)化訓(xùn)練等；另一方面，可用于直接訓(xùn)練真實(shí)和各種類(lèi)型偽造音頻的分類(lèi)器。

（一）特征工程

1. 特征提取

音頻鑒偽檢測(cè)任務(wù)中，特征提取是非常重要的環(huán)節(jié)。特征工程技術(shù)路線(xiàn)可提取梅爾倒譜系數(shù)特征（Mel-Frequency Cepstral Coefficient，MFCC）、線(xiàn)性倒譜系數(shù)（Linear Frequency Cepstral Coefficients，LFCC）、逆梅爾倒譜系數(shù)特征（Inverted Mel-Frequency Cepstral Coefficient，IMFCC）、短時(shí)傅里葉變換（Short-Time Fourier Transform，STFT）聲譜圖特征、恒定Q倒譜系數(shù)特征（Constant Q Cepstral Coefficient，CQCC）、伽馬通（GammaTone）聽(tīng)覺(jué)濾波器組頻譜等。當(dāng)前主要是兩種形式，一種是常見(jiàn)的倒譜系數(shù)提取，在濾波器組設(shè)計(jì)方面，依據(jù)專(zhuān)家知識(shí)設(shè)計(jì)或者基于深度學(xué)習(xí)訓(xùn)練得到。另一種是引入音樂(lè)分析的恒定Q倒譜系數(shù)提取。參數(shù)Q描述濾波器之間的分離程度，人類(lèi)聽(tīng)覺(jué)系統(tǒng)在500Hz到20000Hz的頻帶內(nèi)Q不變。由于恒定Q變換獲取的幾何分布的能量譜，需轉(zhuǎn)成離散余弦變換要求的頻率上的線(xiàn)性分布再提取倒譜特征，因此增加均勻重采樣環(huán)節(jié)。

上述兩種特征提取方法中，均通過(guò)設(shè)置較多的濾波器組和較高的倒譜系數(shù)獲取更好的分辨能力，增強(qiáng)對(duì)高頻信息的刻畫(huà)能力。同時(shí)，增加一階和二階差分倒譜系數(shù)，增強(qiáng)對(duì)動(dòng)態(tài)信息的刻畫(huà)能力。

2. 分類(lèi)模型

特征提取之后，需要具有分類(lèi)性能出色的后端分類(lèi)模型對(duì)聲學(xué)特征進(jìn)行建模，當(dāng)前主流的兩類(lèi)方法：

基于傳統(tǒng)機(jī)器學(xué)習(xí)的檢測(cè)方法，主要包括生成式模型和判別式模型兩種技術(shù)路線(xiàn)，例如生成式模型中的高斯混合模型分類(lèi)器、判別式模型中的支持向量機(jī)分類(lèi)器。

基于深度學(xué)習(xí)的檢測(cè)方法，例如基于卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）、卷積循環(huán)神經(jīng)網(wǎng)絡(luò)（Convolutional Recurrent Neural Network，CRNN）以及上述網(wǎng)絡(luò)結(jié)構(gòu)的衍生算法，例如基于長(zhǎng)短期記憶（Long Short-Term Memory，LSTM）、殘差網(wǎng)絡(luò)（ResNet）和變形器（Transformer）的音頻鑒偽網(wǎng)絡(luò)。

音頻鑒偽任務(wù)中，通常采用真?zhèn)味诸?lèi)模型。而如果將音頻鑒偽看作是異常檢測(cè)或者類(lèi)別極度不平衡的分類(lèi)任務(wù)，研究人員也提出了單分類(lèi)（One-Class）模型。單分類(lèi)問(wèn)題不是將不同標(biāo)簽的數(shù)據(jù)區(qū)分開(kāi)來(lái)，而是對(duì)單個(gè)類(lèi)別的數(shù)據(jù)表征在樣本空間中進(jìn)行區(qū)域輪廓描述，當(dāng)某個(gè)音頻表征落在這個(gè)區(qū)域外，判定該音頻不屬于目標(biāo)類(lèi)別。

（二）深度學(xué)習(xí)

1. 非端到端網(wǎng)絡(luò)

非端到端網(wǎng)絡(luò)中各模塊按照一定的規(guī)則與其他模塊相互聯(lián)系而構(gòu)成更加復(fù)雜的系統(tǒng)，例如音頻鑒偽技術(shù)中的混合網(wǎng)絡(luò)（Hybrid Network）或管路網(wǎng)絡(luò)（Pipeline Network）。輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)LCNN鑒偽是非端到端網(wǎng)絡(luò)的典型代表[8]。

LCNN音頻鑒偽技術(shù)采用輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)和最大特征映射（Max Feature Map，MFM）激活模塊。最大特征映射改進(jìn)了通常的池化方式，通過(guò)激活卷積層特征圖的最大值獲取更多富有競(jìng)爭(zhēng)力的節(jié)點(diǎn)，實(shí)現(xiàn)特征選擇并加速生成稀疏連接，使得卷積神經(jīng)網(wǎng)絡(luò)可獲得更緊湊的表征。同時(shí)，最大特征映射局部特征選擇利用競(jìng)爭(zhēng)關(guān)系而非閾值來(lái)激活神經(jīng)元，在跨域條件下有更好的泛化能力。基于輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)的鑒偽研究主要是針對(duì)損失函數(shù)的選擇和注意力機(jī)制學(xué)習(xí)方面。

2. 端到端網(wǎng)絡(luò)

（1）RawNet系列網(wǎng)絡(luò)

RawNet是一種原始信息卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)，最早用于聲紋識(shí)別任務(wù)。RawNet網(wǎng)絡(luò)可輸出語(yǔ)音嵌入表征。第一個(gè)卷積層直接應(yīng)用于原始語(yǔ)音波形，所有濾波器參數(shù)自動(dòng)學(xué)習(xí)。在較高層中提取幀級(jí)表示的殘差塊，殘差塊使用跳轉(zhuǎn)連接，使訓(xùn)練更深的分類(lèi)器能夠利用更多區(qū)分信息。

RawNet2結(jié)合了原始RawNet方法和正弦網(wǎng)絡(luò)（SincNet）的優(yōu)點(diǎn)[9]。RawNet2的第一層與SincNet基本相同，而上層由與RawNet相同的殘差塊和門(mén)控循環(huán)單元層組成。RawNet2使用基于殘差塊輸出激活函數(shù)的特征圖縮放（Feature Map Scaling，F(xiàn)MS）。FMS注意力機(jī)制獲得更具辨別力的表征。

RawNet3網(wǎng)絡(luò)是基于RawNet2和ECAPA-TDNN網(wǎng)絡(luò)的改進(jìn)。ECAPA-TDNN通過(guò)引入擠壓激勵(lì)（Squeeze-Excitation，SE）模塊以及通道注意機(jī)制，在國(guó)際聲紋識(shí)別比賽VoxSRC2020中取得了第一名的成績(jī)，并已成為聲紋識(shí)別的主流框架之一。RawNet3對(duì)原始波形應(yīng)用預(yù)加重并通過(guò)實(shí)例歸一化（Instance Normalization）層，輸出使用參數(shù)化的分析濾波器組的時(shí)頻域表示。該層是RawNet2中正弦卷積層（Sinc-Convolutional Layer）的擴(kuò)展，即由實(shí)值參數(shù)化濾波器組變?yōu)閺?fù)數(shù)值參數(shù)化濾波器組。RawNet3每個(gè)主干塊稱(chēng)為AFMS-Res2MP，基于Res2Net網(wǎng)絡(luò)結(jié)構(gòu)得到，這里Res2Net是在單個(gè)殘差塊內(nèi)構(gòu)造分層的殘差連接而構(gòu)建的CNN結(jié)構(gòu)，在粒度級(jí)別上表示了多尺度特征，增加了每層的感受野。AFMS是RawNet2的特征圖縮放模塊的擴(kuò)展。

（2）圖卷積注意力網(wǎng)絡(luò)

基于圖注意力網(wǎng)絡(luò)（Graph Attention Network，GAT）的音頻鑒偽系統(tǒng)RawGAT，如圖4所示。包含頻域和時(shí)域圖注意力網(wǎng)絡(luò)，能夠?qū)W習(xí)跨越不同子帶和時(shí)間間隔的線(xiàn)索之間的關(guān)系，使用頻譜和時(shí)間的模型級(jí)圖融合子圖和圖池化（Graph Pooling）策略以提高真假音頻的區(qū)分度[10]。該網(wǎng)絡(luò)模型結(jié)構(gòu)實(shí)現(xiàn)了端到端的高層語(yǔ)義特征表征，在頻域-時(shí)域注意力機(jī)制基礎(chǔ)上增加了圖注意力模塊，采用了圖池化層用于區(qū)分性節(jié)點(diǎn)選擇，并最終實(shí)現(xiàn)模型級(jí)別的融合音頻鑒偽檢測(cè)。

在RawGAT方法基礎(chǔ)上，進(jìn)一步提出了AASIST（Audio Anti-Spoofing using Integrated Spectro-Temporal GAT）鑒偽檢測(cè)模型[11]。AASIST使用了各向異性堆疊圖注意層（Heterogeneous Stacking Graph Attention Layer，HSGAL）、競(jìng)爭(zhēng)性最大圖操作（Max Graph Operation，MGO）和擴(kuò)展讀出策略，取得了性能上的大幅度提升。

（三）數(shù)據(jù)增強(qiáng)

為了應(yīng)對(duì)實(shí)際環(huán)境中音頻鑒偽檢測(cè)性能下降問(wèn)題，提升系統(tǒng)魯棒性和泛化能力，通常采用數(shù)據(jù)增強(qiáng)的方法。根據(jù)處理方式不同，數(shù)據(jù)增強(qiáng)可分為在線(xiàn)數(shù)據(jù)增強(qiáng)和離線(xiàn)數(shù)據(jù)增強(qiáng)。離線(xiàn)數(shù)據(jù)增強(qiáng)就是一次性把數(shù)據(jù)讀入并擴(kuò)增后存儲(chǔ)，再用這個(gè)擴(kuò)增后的數(shù)據(jù)集進(jìn)行訓(xùn)練，適用于較小的數(shù)據(jù)集。在線(xiàn)數(shù)據(jù)增強(qiáng)就是在每個(gè)訓(xùn)練周期或批次前，對(duì)數(shù)據(jù)集進(jìn)行加噪聲、加混響等操作。

當(dāng)前數(shù)據(jù)增強(qiáng)方法存在一定的局限性，例如，離線(xiàn)數(shù)據(jù)增強(qiáng)需要先對(duì)語(yǔ)音和噪聲/混響數(shù)據(jù)進(jìn)行加噪，生成大量數(shù)據(jù)存儲(chǔ)并在訓(xùn)練過(guò)程中讀取，對(duì)存儲(chǔ)和磁盤(pán)I/O要求高。在線(xiàn)方式的數(shù)據(jù)增強(qiáng)，雖然節(jié)省了磁盤(pán)空間，但需要對(duì)數(shù)據(jù)重復(fù)加噪聲或混響等擾動(dòng)，極大地增加了訓(xùn)練時(shí)間。

1. 面向復(fù)雜多樣音頻場(chǎng)景的數(shù)據(jù)增強(qiáng)

實(shí)際場(chǎng)景中音頻來(lái)源和音頻特性復(fù)雜多樣，會(huì)受到話(huà)音傳輸干擾、網(wǎng)絡(luò)特性干擾和采集設(shè)備干擾。傳輸干擾包括基于IP的語(yǔ)音傳輸（VoIP）、公共交換電話(huà)網(wǎng)絡(luò)（PSTN）等影響；網(wǎng)絡(luò)特性干擾包括編解碼、網(wǎng)絡(luò)丟包丟幀、碼率變化等；編碼譯碼器（Codec）干擾包括非線(xiàn)性失真、語(yǔ)譜缺失等。針對(duì)上述干擾，音頻增強(qiáng)方式可從以下幾方面進(jìn)行：

話(huà)音傳輸干擾：影響信道響應(yīng)，針對(duì)VoIP、PSTN、衛(wèi)星通話(huà)等信道的話(huà)音數(shù)據(jù)，采用G.722、G.729、amr等音頻格式的轉(zhuǎn)換。

網(wǎng)絡(luò)特性干擾：針對(duì)有損編解碼，采用FFmpeg或SoX軟件工具，實(shí)現(xiàn)多種網(wǎng)絡(luò)音頻格式的互相轉(zhuǎn)換，例如mp3、aac、silk、opus等。由于每種格式存在不同碼率的影響，通常隨機(jī)選取高中低三種碼率進(jìn)行數(shù)據(jù)增強(qiáng)。

編碼譯碼器的影響：主要體現(xiàn)在寬帶編碼譯碼器（Wide-band Codec）或窄帶編碼譯碼器（Narrow-band Codec）的使用。帶通濾波的影響會(huì)造成高頻信息的丟失，可對(duì)音頻進(jìn)行寬帶或窄帶編碼譯碼器的模擬增強(qiáng)。

2. 嵌入表征數(shù)據(jù)增強(qiáng)

嵌入表征數(shù)據(jù)增強(qiáng)方法，是通過(guò)表征層噪聲分布匹配（Noise Distribution Matching，NDM）。基本思想是在嵌入空間對(duì)干凈和含噪嵌入表征計(jì)算差值，假定服從均勻分布、拉普拉斯分布或高斯分布，基于上述分布模型去估計(jì)分布參數(shù)。得到噪聲嵌入向量的分布估計(jì)之后，不再需要對(duì)原始數(shù)據(jù)進(jìn)行加噪再提取含噪嵌入向量，而是直接從噪聲嵌入向量分布估計(jì)中直接采樣得到，并與干凈嵌入向量相加得到加噪增強(qiáng)的嵌入向量。相較于常見(jiàn)的數(shù)據(jù)增強(qiáng)方法，在磁盤(pán)存儲(chǔ)、I/O資源和訓(xùn)練時(shí)間等方面均有節(jié)省。

3. 時(shí)頻域掩蔽增強(qiáng)

基于時(shí)頻域掩蔽增強(qiáng)訓(xùn)練的音頻鑒偽檢測(cè)泛化能力提升方法，采用時(shí)頻域掩蔽技術(shù)，損失函數(shù)采用加權(quán)交叉熵?fù)p失和混合正則化損失相融合，避免了訓(xùn)練數(shù)據(jù)中真實(shí)音頻和偽造音頻不平衡造成的模型偏向某一類(lèi)別的風(fēng)險(xiǎn)，提升模型的泛化能力。

三、音頻鑒偽技術(shù)系統(tǒng)

（一）面向傳統(tǒng)偽造-語(yǔ)音拼接的音頻鑒偽

利用音頻編輯軟件可輕易對(duì)真實(shí)音頻進(jìn)行剪切、復(fù)制、粘貼等拼接偽造操作，導(dǎo)致音頻的真實(shí)性與完整性不易判斷。按照音頻拼接方式的不同，可以分為同人語(yǔ)音或非同人音頻拼接、一段或多段拼接、真實(shí)片段音頻拼接或真實(shí)與偽造音頻片段拼接等多種形式。錄音取證中鑒別一段音頻檢材是否經(jīng)過(guò)拼接處理，已成為重要技術(shù)問(wèn)題。

輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)利用時(shí)間和空間上的平移不變性，以及長(zhǎng)短期記憶網(wǎng)絡(luò)在時(shí)域的上下文記憶的優(yōu)點(diǎn)，對(duì)自然音頻和拼接音頻能夠更好地區(qū)分。通過(guò)滑窗的方法對(duì)待檢測(cè)音頻進(jìn)行鑒別，對(duì)窗內(nèi)音頻特征信息進(jìn)行分析，提高鑒別準(zhǔn)確率，并能提供拼接點(diǎn)數(shù)量和時(shí)間信息估計(jì)。

ASVspoof2015數(shù)據(jù)集是第一個(gè)用于偽造和檢測(cè)研究的主要數(shù)據(jù)集。該數(shù)據(jù)集僅針對(duì)邏輯訪(fǎng)問(wèn)攻擊場(chǎng)景，分為T(mén)rain、Dev和Eva三部分，其中Train和Dev包含真實(shí)和S1到S5共五種欺騙算法的虛假語(yǔ)音。Eva包含真實(shí)和S1到S10共十種欺騙算法的虛假語(yǔ)音。S10是基于開(kāi)源文本轉(zhuǎn)語(yǔ)音系統(tǒng)的拼接合成算法。使用ASVspoof2015-Eva的真實(shí)和S10數(shù)據(jù)構(gòu)成拼接語(yǔ)音測(cè)試集，共計(jì)9404條真實(shí)和18400條拼接虛假語(yǔ)音。

由于A(yíng)SVspoof2015未提供拼接訓(xùn)練集，本文采用兩個(gè)中文語(yǔ)音數(shù)據(jù)集自制拼接訓(xùn)練數(shù)據(jù)，即THCHS-30（https:// www.openslr.org/18/）和MAGICDATA（https://www.openslr. org/68/），分別自制5470條真實(shí)和拼接虛假語(yǔ)音?；赑yTorch搭建實(shí)驗(yàn)環(huán)境，采用等錯(cuò)誤率（Equal Error Rate，EER）作為評(píng)價(jià)指標(biāo)，EER指標(biāo)越接近于0表示模型的鑒偽檢測(cè)效果越好。

由表2，在較大的幀長(zhǎng)幀移和批次大小上取得了明顯的效果提升，改變LSTM的層數(shù)對(duì)檢測(cè)性能有進(jìn)一步的提升。本文提出的LCNN和LSTM的網(wǎng)絡(luò)結(jié)構(gòu)，能夠提高拼接語(yǔ)音鑒別的準(zhǔn)確度。

（二）基于多重注意力機(jī)制的音頻鑒偽

注意力機(jī)制可以幫助模型對(duì)輸入的每個(gè)部分賦予不同的權(quán)重，抽取出更加關(guān)鍵及重要的信息，使模型做出更加準(zhǔn)確的判斷。采用端到端的架構(gòu)將音頻的原始信息經(jīng)過(guò)簡(jiǎn)單的轉(zhuǎn)換編碼格式等處理，然后直接送入模型進(jìn)行檢測(cè)是否為虛假音頻。網(wǎng)絡(luò)結(jié)構(gòu)包含音頻的嵌入特征提取模塊，為了更全面更精準(zhǔn)地學(xué)習(xí)偽造音頻和真實(shí)音頻的區(qū)別，嵌入特征提取模塊分為兩大部分，第一部分提取音頻全頻帶嵌入特征，第二部分提取音頻不同子頻帶嵌入特征。網(wǎng)絡(luò)引入組合注意機(jī)制模塊。為了讓網(wǎng)絡(luò)更好地學(xué)習(xí)音頻局部的特點(diǎn)，該模塊分為三個(gè)子模塊：時(shí)間區(qū)域注意力模塊、頻譜區(qū)域注意力模塊和通道區(qū)域注意力模塊。網(wǎng)絡(luò)中引入了融合注意力模塊，既用于學(xué)習(xí)經(jīng)過(guò)組合注意力模塊進(jìn)行特征選擇之后保留的重要信息，也是對(duì)各個(gè)子頻帶和全頻帶進(jìn)一步利用注意力機(jī)制進(jìn)行融合學(xué)習(xí)。

ASVspoof2019數(shù)據(jù)集包含LA和PA兩個(gè)子集，LA子集為真實(shí)語(yǔ)音和合成/轉(zhuǎn)換語(yǔ)音，PA子集為真實(shí)語(yǔ)音和重放語(yǔ)音。使用ASVspoof2019-Eva的LA子集作為測(cè)試集，共計(jì)7355條真實(shí)和63882條虛假語(yǔ)音。使用ASVspoof2019-Train的LA子集作為訓(xùn)練集，共計(jì)2580條真實(shí)和22800條虛假語(yǔ)音?；赑yTorch搭建實(shí)驗(yàn)環(huán)境，引入基于殘差網(wǎng)絡(luò)的TSSDNet（Time-Domain Synthetic Speech Detection Net）[12]，即Res-TSSDNet 端到端網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)對(duì)比。

從表3可以看出，目前端到端網(wǎng)絡(luò)比非端到端網(wǎng)絡(luò)在音頻鑒偽任務(wù)上取得了更好的檢測(cè)效果，基于圖卷積網(wǎng)絡(luò)和多重注意力機(jī)制的等錯(cuò)誤率低于1%，證明了方法的有效性。

（三）基于多系統(tǒng)融合的音頻鑒偽

為了提升檢測(cè)準(zhǔn)確率，降低檢測(cè)誤報(bào)率，實(shí)際音頻鑒偽應(yīng)用通常采用多系統(tǒng)融合的鑒偽檢測(cè)方法。以下是一種基于端到端網(wǎng)絡(luò)和非端到端網(wǎng)絡(luò)融合的音頻鑒偽系統(tǒng)。端到端網(wǎng)絡(luò)系統(tǒng)中，獲取音頻的序列信息并進(jìn)行歸一化，結(jié)合融合損失函數(shù)進(jìn)行優(yōu)化訓(xùn)練得到端到端模型。非端到端網(wǎng)絡(luò)系統(tǒng)中，提取音頻特征并輸入到后續(xù)模塊中，結(jié)合融合損失函數(shù)進(jìn)行優(yōu)化訓(xùn)練得到非端到端分類(lèi)模型。兩種網(wǎng)絡(luò)在訓(xùn)練時(shí)獨(dú)立進(jìn)行，在測(cè)試階段將對(duì)兩種模型檢測(cè)的分?jǐn)?shù)進(jìn)行融合，提升系統(tǒng)的準(zhǔn)確率和穩(wěn)定性。端到端網(wǎng)絡(luò)和非端到端網(wǎng)絡(luò)中注意機(jī)制均可采用圖注意力網(wǎng)絡(luò)，該網(wǎng)絡(luò)每個(gè)節(jié)點(diǎn)可以根據(jù)相鄰節(jié)點(diǎn)的特征，為其分配不同的權(quán)值，另外引入注意力機(jī)制之后，只與相鄰節(jié)點(diǎn)有關(guān)，無(wú)需得到整張圖的信息。圖注意力網(wǎng)絡(luò)可以處理變長(zhǎng)輸入，關(guān)注有影響力的輸入，可有效學(xué)習(xí)到真實(shí)音頻和偽造音頻之間的區(qū)別，從而提升模型檢測(cè)性能。

四、結(jié)語(yǔ)

智能語(yǔ)音技術(shù)日新月異，加強(qiáng)音頻鑒偽檢測(cè)與防御技術(shù)研究十分必要。從音頻鑒偽攻防對(duì)抗角度，回顧了音頻鑒偽技術(shù)的主要發(fā)展歷程。從特征工程、深度學(xué)習(xí)、數(shù)據(jù)增強(qiáng)等方面介紹了音頻鑒偽技術(shù)路線(xiàn)。闡述了當(dāng)前主流的端到端鑒偽模型、注意力機(jī)制網(wǎng)絡(luò)、面向?qū)嶋H復(fù)雜場(chǎng)景的數(shù)據(jù)增強(qiáng)等關(guān)鍵技術(shù)。最后，以語(yǔ)音拼接的傳統(tǒng)偽造檢測(cè)、基于多重注意力機(jī)制的音頻鑒偽和基于多系統(tǒng)融合的音頻鑒偽為例，詳述了音頻鑒偽技術(shù)系統(tǒng)。從實(shí)驗(yàn)結(jié)果可以看出，基于空間平移不變性以及時(shí)域上下文記憶的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)，可實(shí)現(xiàn)對(duì)自然音頻和拼接音頻的區(qū)分。在音頻鑒偽任務(wù)上，端到端網(wǎng)絡(luò)比非端到端網(wǎng)絡(luò)普遍取得了更好的檢測(cè)性能，進(jìn)一步挖掘端到端網(wǎng)絡(luò)的效果值得更多關(guān)注。

實(shí)際場(chǎng)景對(duì)音頻鑒偽的通用性和泛化能力提出了更高要求，特別是對(duì)未見(jiàn)或跨域場(chǎng)景的偽造生成攻擊。多因子多系統(tǒng)融合鑒偽，基于場(chǎng)景遷移、預(yù)訓(xùn)練模型、自監(jiān)督學(xué)習(xí)（Self-supervised learning）的音頻鑒偽技術(shù)將是未來(lái)的技術(shù)發(fā)展趨勢(shì)。監(jiān)督學(xué)習(xí)模型極度依賴(lài)于大量的有標(biāo)簽數(shù)據(jù)，而自監(jiān)督學(xué)習(xí)可以作為音頻鑒偽的前置任務(wù)，從海量無(wú)標(biāo)簽數(shù)據(jù)中學(xué)習(xí)音頻的有效表征，更好地用于下游音頻鑒偽任務(wù)。