鄭榕 孟凡芹 王志宣
1. 北京遠(yuǎn)鑒信息技術(shù)有限公司研究院 2. 公安部第一研究所 3. 多維身份識(shí)別與可信認(rèn)證技術(shù)國(guó)家工程研究中心
人工智能生成內(nèi)容(Artificial Intelligence Generated Content,AIGC)正在快速興起,通過(guò)人工智能算法對(duì)數(shù)據(jù)或內(nèi)容進(jìn)行生產(chǎn)和編輯,重塑數(shù)字內(nèi)容的生產(chǎn)和消費(fèi)模式[1]。語(yǔ)音是人機(jī)交互的的主要接口,伴隨著人工智能技術(shù)的興起和新設(shè)備不斷推出,得到了快速發(fā)展,其中一些只能通過(guò)語(yǔ)音命令或聲音交互進(jìn)行操作,這為黑客或破壞者提供了攻擊的機(jī)會(huì),特別是涉及語(yǔ)音欺詐或者深度合成(Deep Synthesis)語(yǔ)音方面[2],達(dá)到以假亂真的程度,輕松實(shí)現(xiàn)變聲、聲音克隆等。技術(shù)濫用后很可能使得偽造生成內(nèi)容通過(guò)互聯(lián)網(wǎng)和電信網(wǎng)廣泛傳播,造成虛假身份、虛假信息、違法違規(guī)內(nèi)容流出或傳播,給檢測(cè)、追溯、監(jiān)管等造成嚴(yán)重困難。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,典型人機(jī)交互系統(tǒng)例如聲紋識(shí)別系統(tǒng)、語(yǔ)音控制系統(tǒng)等,在走向?qū)嶋H應(yīng)用的過(guò)程中易受語(yǔ)音欺騙的攻擊[3]。語(yǔ)音欺騙攻擊利用各種算法生成與特定說(shuō)話(huà)人或特定內(nèi)容盡可能相似的語(yǔ)音,包括語(yǔ)音合成、聲音轉(zhuǎn)換、錄音重放、語(yǔ)音拼接和對(duì)抗樣本等形式。
語(yǔ)音欺騙主要可分為物理訪(fǎng)問(wèn)(Physical Access)攻擊和邏輯訪(fǎng)問(wèn)(Logical Access)攻擊。物理攻擊通常經(jīng)過(guò)了聲音采集環(huán)節(jié),通過(guò)APP、HTML5頁(yè)面等形式,例如錄音重放。邏輯攻擊通常是通過(guò)調(diào)用SDK/API、服務(wù)接口完成攻擊,例如語(yǔ)音合成、聲音轉(zhuǎn)換、聲音克隆等。實(shí)際應(yīng)用中需要鑒別各種來(lái)源音頻或視頻中音軌數(shù)據(jù)的真?zhèn)?,包括?lái)自互聯(lián)網(wǎng)和電信網(wǎng)等復(fù)雜多樣的音頻數(shù)據(jù)。音頻鑒偽是將音頻數(shù)據(jù)輸送到自動(dòng)音頻鑒偽系統(tǒng)中,通過(guò)系統(tǒng)輸出的相似度判決是否為偽造音頻。本文結(jié)合音頻鑒偽檢測(cè)典型系統(tǒng)和技術(shù)發(fā)展歷程,開(kāi)展了音頻鑒偽檢測(cè)與防御技術(shù)研究,旨在提升實(shí)際應(yīng)用場(chǎng)景中音頻鑒偽檢測(cè)的通用性和泛化能力。
典型的音頻鑒偽檢測(cè)技術(shù)需支持傳統(tǒng)偽造音頻以及深度合成音頻的檢測(cè),如音頻增刪拼接偽造、語(yǔ)音身份風(fēng)格偽造、音色偽造、韻律偽造和聲音轉(zhuǎn)換等各種類(lèi)型的偽造音頻[4]。鑒偽檢測(cè)系統(tǒng)流程如圖1所示。
訓(xùn)練階段:把真實(shí)音頻和偽造音頻的波形或特征輸入分類(lèi)網(wǎng)絡(luò)或分類(lèi)器,例如門(mén)控循環(huán)單元(Gated Recurrent Unit,GRU)或者輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)(Light Convolutional Neural Network,LCNN)等,迭代訓(xùn)練網(wǎng)絡(luò),最后得到真實(shí)音頻和偽造音頻的分類(lèi)模型。非端到端分類(lèi)網(wǎng)絡(luò)中通常前置音頻特征提取模塊。
檢測(cè)階段:把待測(cè)音頻的波形或特征輸入到鑒偽檢測(cè)模型,計(jì)算相似度并與預(yù)設(shè)閾值進(jìn)行比較,得到檢測(cè)判決結(jié)果。
聲音模仿和錄音重放,實(shí)現(xiàn)成本較低,通過(guò)簡(jiǎn)單的錄音設(shè)備即可實(shí)現(xiàn)。利用開(kāi)源算法工具,語(yǔ)音合成和聲音轉(zhuǎn)換的偽造門(mén)檻不斷降低。攻防技術(shù)手段不斷升級(jí),偽造攻擊可以是單點(diǎn)攻擊但是檢測(cè)防御需要做到線(xiàn)防御或面防御。隨著變分自編碼器、生成對(duì)抗網(wǎng)絡(luò)、流模型、擴(kuò)散模型等技術(shù)的發(fā)展,攻擊技術(shù)手段不斷提升,例如聲音轉(zhuǎn)換逐漸朝著小樣本、輕量化、多對(duì)多轉(zhuǎn)換的技術(shù)路線(xiàn)發(fā)展。語(yǔ)音合成逐步提升韻律音色合成的穩(wěn)定性、個(gè)性化和表現(xiàn)力。錄音重放基于各種新推出的采集設(shè)備、播放設(shè)備、錄音設(shè)備,以及錄放過(guò)程中引入的各種環(huán)境噪聲。
隨著錄音設(shè)備質(zhì)量的提高和語(yǔ)音合成、聲音轉(zhuǎn)換等語(yǔ)音智能處理技術(shù)的發(fā)展,特別是深度合成技術(shù)的深入應(yīng)用,真實(shí)音頻與人工生成后的音頻將越來(lái)越難以區(qū)分,給語(yǔ)音防欺騙檢測(cè)和自動(dòng)聲紋識(shí)別系統(tǒng)的安全性帶來(lái)嚴(yán)峻的挑戰(zhàn)。當(dāng)前技術(shù)應(yīng)用主要存在以下幾方面的局限性:
攻防對(duì)抗頻繁:鑒別技術(shù)提出之后會(huì)有針對(duì)該鑒別技術(shù)的對(duì)抗方式出現(xiàn),攻防對(duì)抗非常頻繁。
泛化能力不足:通常鑒偽技術(shù)只針對(duì)特定生成模型,對(duì)未見(jiàn)場(chǎng)景或者遷移后的性能下降明顯,比如在跨域跨場(chǎng)景或多種數(shù)據(jù)來(lái)源的數(shù)據(jù)場(chǎng)景中性能下降,實(shí)際應(yīng)用中會(huì)遇到長(zhǎng)尾分布問(wèn)題導(dǎo)致效果不佳,這些問(wèn)題均要求檢測(cè)模型具備更好的泛化能力和通用性。
深度學(xué)習(xí)效果有待提升:通常方法是先將原始音頻數(shù)據(jù)預(yù)處理成特征,再把特征輸入神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)和其他模塊分別訓(xùn)練以提升整體模型的效果,由于各個(gè)模塊的最優(yōu)解結(jié)合后并不一定是全局最優(yōu),因此深度學(xué)習(xí)的效果發(fā)揮還不夠充分。
音頻鑒偽攻防對(duì)抗中,進(jìn)一步研究真實(shí)音頻與偽造音頻之間差異性及有效解釋?zhuān)瑧?yīng)對(duì)復(fù)雜多樣音頻鑒偽的通用能力,提升基于深度學(xué)習(xí)的檢測(cè)防御能力,特別是端到端音頻鑒偽系統(tǒng)性能、多系統(tǒng)融合鑒偽等方面,受到越來(lái)越多的重視。
國(guó)際上對(duì)語(yǔ)音防欺騙這一問(wèn)題持續(xù)關(guān)注,并從2015年至2021年連續(xù)舉辦了四屆聲紋防攻擊挑戰(zhàn)賽(Automatic Speaker Verification and Spoofing Countermeasures Challenge,ASVspoof)[5]。最早關(guān)注合成轉(zhuǎn)換類(lèi)攻擊,然后是錄音重放攻擊,最近一屆挑戰(zhàn)賽細(xì)分為合成轉(zhuǎn)換賽道、錄音重放賽道和深偽賽道。挑戰(zhàn)賽的舉辦極大地推動(dòng)了語(yǔ)音防欺騙技術(shù)的進(jìn)步。國(guó)內(nèi)外研究單位聯(lián)合在語(yǔ)音領(lǐng)域會(huì)議ICASSP2022上舉辦首屆語(yǔ)音深度合成鑒別挑戰(zhàn)賽(Audio Deep Synthesis Detection Challenge,ADD2022)[6],推動(dòng)研究人員提出具有創(chuàng)新性的算法,促進(jìn)音頻鑒偽領(lǐng)域的技術(shù)發(fā)展。語(yǔ)音領(lǐng)域會(huì)議INTERSPEECH2022上舉辦了首屆欺騙感知聲紋確認(rèn)挑戰(zhàn)賽(Spoofing-Aware Speaker Verification Challenge,SASV2022)[7],旨在促進(jìn)聯(lián)合優(yōu)化解決方案的研究,以完成傳統(tǒng)上分別優(yōu)化的音頻鑒偽和聲紋識(shí)別任務(wù)。
?
當(dāng)前音頻鑒偽主要可分為特征工程和深度學(xué)習(xí)兩種技術(shù)路線(xiàn)。特征工程是提取多種頻譜特征或?qū)︻l譜提取器的改進(jìn),例如梅爾倒譜、線(xiàn)性倒譜等濾波器組頻譜,屬于根據(jù)專(zhuān)家知識(shí)設(shè)計(jì)的濾波器組。深度學(xué)習(xí)技術(shù)思路一方面可用于改進(jìn)特征提取,例如基于深度神經(jīng)網(wǎng)絡(luò)的濾波器提取器優(yōu)化訓(xùn)練等;另一方面,可用于直接訓(xùn)練真實(shí)和各種類(lèi)型偽造音頻的分類(lèi)器。
1. 特征提取
音頻鑒偽檢測(cè)任務(wù)中,特征提取是非常重要的環(huán)節(jié)。特征工程技術(shù)路線(xiàn)可提取梅爾倒譜系數(shù)特征(Mel-Frequency Cepstral Coefficient,MFCC)、線(xiàn)性倒譜系數(shù)(Linear Frequency Cepstral Coefficients,LFCC)、逆梅爾倒譜系數(shù)特征(Inverted Mel-Frequency Cepstral Coefficient,IMFCC)、短時(shí)傅里葉變換(Short-Time Fourier Transform,STFT)聲譜圖特征、恒定Q倒譜系數(shù)特征(Constant Q Cepstral Coefficient,CQCC)、伽馬通(GammaTone)聽(tīng)覺(jué)濾波器組頻譜等。當(dāng)前主要是兩種形式,一種是常見(jiàn)的倒譜系數(shù)提取,在濾波器組設(shè)計(jì)方面,依據(jù)專(zhuān)家知識(shí)設(shè)計(jì)或者基于深度學(xué)習(xí)訓(xùn)練得到。另一種是引入音樂(lè)分析的恒定Q倒譜系數(shù)提取。參數(shù)Q描述濾波器之間的分離程度,人類(lèi)聽(tīng)覺(jué)系統(tǒng)在500Hz到20000Hz的頻帶內(nèi)Q不變。由于恒定Q變換獲取的幾何分布的能量譜,需轉(zhuǎn)成離散余弦變換要求的頻率上的線(xiàn)性分布再提取倒譜特征,因此增加均勻重采樣環(huán)節(jié)。
上述兩種特征提取方法中,均通過(guò)設(shè)置較多的濾波器組和較高的倒譜系數(shù)獲取更好的分辨能力,增強(qiáng)對(duì)高頻信息的刻畫(huà)能力。同時(shí),增加一階和二階差分倒譜系數(shù),增強(qiáng)對(duì)動(dòng)態(tài)信息的刻畫(huà)能力。
2. 分類(lèi)模型
特征提取之后,需要具有分類(lèi)性能出色的后端分類(lèi)模型對(duì)聲學(xué)特征進(jìn)行建模,當(dāng)前主流的兩類(lèi)方法:
基于傳統(tǒng)機(jī)器學(xué)習(xí)的檢測(cè)方法,主要包括生成式模型和判別式模型兩種技術(shù)路線(xiàn),例如生成式模型中的高斯混合模型分類(lèi)器、判別式模型中的支持向量機(jī)分類(lèi)器。
基于深度學(xué)習(xí)的檢測(cè)方法,例如基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Convolutional Recurrent Neural Network,CRNN)以及上述網(wǎng)絡(luò)結(jié)構(gòu)的衍生算法,例如基于長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)、殘差網(wǎng)絡(luò)(ResNet)和變形器(Transformer)的音頻鑒偽網(wǎng)絡(luò)。
音頻鑒偽任務(wù)中,通常采用真?zhèn)味诸?lèi)模型。而如果將音頻鑒偽看作是異常檢測(cè)或者類(lèi)別極度不平衡的分類(lèi)任務(wù),研究人員也提出了單分類(lèi)(One-Class)模型。單分類(lèi)問(wèn)題不是將不同標(biāo)簽的數(shù)據(jù)區(qū)分開(kāi)來(lái),而是對(duì)單個(gè)類(lèi)別的數(shù)據(jù)表征在樣本空間中進(jìn)行區(qū)域輪廓描述,當(dāng)某個(gè)音頻表征落在這個(gè)區(qū)域外,判定該音頻不屬于目標(biāo)類(lèi)別。
1. 非端到端網(wǎng)絡(luò)
非端到端網(wǎng)絡(luò)中各模塊按照一定的規(guī)則與其他模塊相互聯(lián)系而構(gòu)成更加復(fù)雜的系統(tǒng),例如音頻鑒偽技術(shù)中的混合網(wǎng)絡(luò)(Hybrid Network)或管路網(wǎng)絡(luò)(Pipeline Network)。輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)LCNN鑒偽是非端到端網(wǎng)絡(luò)的典型代表[8]。
LCNN音頻鑒偽技術(shù)采用輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)和最大特征映射(Max Feature Map,MFM)激活模塊。最大特征映射改進(jìn)了通常的池化方式,通過(guò)激活卷積層特征圖的最大值獲取更多富有競(jìng)爭(zhēng)力的節(jié)點(diǎn),實(shí)現(xiàn)特征選擇并加速生成稀疏連接,使得卷積神經(jīng)網(wǎng)絡(luò)可獲得更緊湊的表征。同時(shí),最大特征映射局部特征選擇利用競(jìng)爭(zhēng)關(guān)系而非閾值來(lái)激活神經(jīng)元,在跨域條件下有更好的泛化能力。基于輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)的鑒偽研究主要是針對(duì)損失函數(shù)的選擇和注意力機(jī)制學(xué)習(xí)方面。
2. 端到端網(wǎng)絡(luò)
(1)RawNet系列網(wǎng)絡(luò)
RawNet是一種原始信息卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),最早用于聲紋識(shí)別任務(wù)。RawNet網(wǎng)絡(luò)可輸出語(yǔ)音嵌入表征。第一個(gè)卷積層直接應(yīng)用于原始語(yǔ)音波形,所有濾波器參數(shù)自動(dòng)學(xué)習(xí)。在較高層中提取幀級(jí)表示的殘差塊,殘差塊使用跳轉(zhuǎn)連接,使訓(xùn)練更深的分類(lèi)器能夠利用更多區(qū)分信息。
RawNet2結(jié)合了原始RawNet方法和正弦網(wǎng)絡(luò)(SincNet)的優(yōu)點(diǎn)[9]。RawNet2的第一層與SincNet基本相同,而上層由與RawNet相同的殘差塊和門(mén)控循環(huán)單元層組成。RawNet2使用基于殘差塊輸出激活函數(shù)的特征圖縮放(Feature Map Scaling,F(xiàn)MS)。FMS注意力機(jī)制獲得更具辨別力的表征。
RawNet3網(wǎng)絡(luò)是基于RawNet2和ECAPA-TDNN網(wǎng)絡(luò)的改進(jìn)。ECAPA-TDNN通過(guò)引入擠壓激勵(lì)(Squeeze-Excitation,SE)模塊以及通道注意機(jī)制,在國(guó)際聲紋識(shí)別比賽VoxSRC2020中取得了第一名的成績(jī),并已成為聲紋識(shí)別的主流框架之一。RawNet3對(duì)原始波形應(yīng)用預(yù)加重并通過(guò)實(shí)例歸一化(Instance Normalization)層,輸出使用參數(shù)化的分析濾波器組的時(shí)頻域表示。該層是RawNet2中正弦卷積層(Sinc-Convolutional Layer)的擴(kuò)展,即由實(shí)值參數(shù)化濾波器組變?yōu)閺?fù)數(shù)值參數(shù)化濾波器組。RawNet3每個(gè)主干塊稱(chēng)為AFMS-Res2MP,基于Res2Net網(wǎng)絡(luò)結(jié)構(gòu)得到,這里Res2Net是在單個(gè)殘差塊內(nèi)構(gòu)造分層的殘差連接而構(gòu)建的CNN結(jié)構(gòu),在粒度級(jí)別上表示了多尺度特征,增加了每層的感受野。AFMS是RawNet2的特征圖縮放模塊的擴(kuò)展。
(2)圖卷積注意力網(wǎng)絡(luò)
基于圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAT)的音頻鑒偽系統(tǒng)RawGAT,如圖4所示。包含頻域和時(shí)域圖注意力網(wǎng)絡(luò),能夠?qū)W習(xí)跨越不同子帶和時(shí)間間隔的線(xiàn)索之間的關(guān)系,使用頻譜和時(shí)間的模型級(jí)圖融合子圖和圖池化(Graph Pooling)策略以提高真假音頻的區(qū)分度[10]。該網(wǎng)絡(luò)模型結(jié)構(gòu)實(shí)現(xiàn)了端到端的高層語(yǔ)義特征表征,在頻域-時(shí)域注意力機(jī)制基礎(chǔ)上增加了圖注意力模塊,采用了圖池化層用于區(qū)分性節(jié)點(diǎn)選擇,并最終實(shí)現(xiàn)模型級(jí)別的融合音頻鑒偽檢測(cè)。
在RawGAT方法基礎(chǔ)上,進(jìn)一步提出了AASIST(Audio Anti-Spoofing using Integrated Spectro-Temporal GAT)鑒偽檢測(cè)模型[11]。AASIST使用了各向異性堆疊圖注意層(Heterogeneous Stacking Graph Attention Layer,HSGAL)、競(jìng)爭(zhēng)性最大圖操作(Max Graph Operation,MGO)和擴(kuò)展讀出策略,取得了性能上的大幅度提升。
為了應(yīng)對(duì)實(shí)際環(huán)境中音頻鑒偽檢測(cè)性能下降問(wèn)題,提升系統(tǒng)魯棒性和泛化能力,通常采用數(shù)據(jù)增強(qiáng)的方法。根據(jù)處理方式不同,數(shù)據(jù)增強(qiáng)可分為在線(xiàn)數(shù)據(jù)增強(qiáng)和離線(xiàn)數(shù)據(jù)增強(qiáng)。離線(xiàn)數(shù)據(jù)增強(qiáng)就是一次性把數(shù)據(jù)讀入并擴(kuò)增后存儲(chǔ),再用這個(gè)擴(kuò)增后的數(shù)據(jù)集進(jìn)行訓(xùn)練,適用于較小的數(shù)據(jù)集。在線(xiàn)數(shù)據(jù)增強(qiáng)就是在每個(gè)訓(xùn)練周期或批次前,對(duì)數(shù)據(jù)集進(jìn)行加噪聲、加混響等操作。
當(dāng)前數(shù)據(jù)增強(qiáng)方法存在一定的局限性,例如,離線(xiàn)數(shù)據(jù)增強(qiáng)需要先對(duì)語(yǔ)音和噪聲/混響數(shù)據(jù)進(jìn)行加噪,生成大量數(shù)據(jù)存儲(chǔ)并在訓(xùn)練過(guò)程中讀取,對(duì)存儲(chǔ)和磁盤(pán)I/O要求高。在線(xiàn)方式的數(shù)據(jù)增強(qiáng),雖然節(jié)省了磁盤(pán)空間,但需要對(duì)數(shù)據(jù)重復(fù)加噪聲或混響等擾動(dòng),極大地增加了訓(xùn)練時(shí)間。
1. 面向復(fù)雜多樣音頻場(chǎng)景的數(shù)據(jù)增強(qiáng)
實(shí)際場(chǎng)景中音頻來(lái)源和音頻特性復(fù)雜多樣,會(huì)受到話(huà)音傳輸干擾、網(wǎng)絡(luò)特性干擾和采集設(shè)備干擾。傳輸干擾包括基于IP的語(yǔ)音傳輸(VoIP)、公共交換電話(huà)網(wǎng)絡(luò)(PSTN)等影響;網(wǎng)絡(luò)特性干擾包括編解碼、網(wǎng)絡(luò)丟包丟幀、碼率變化等;編碼譯碼器(Codec)干擾包括非線(xiàn)性失真、語(yǔ)譜缺失等。針對(duì)上述干擾,音頻增強(qiáng)方式可從以下幾方面進(jìn)行:
話(huà)音傳輸干擾:影響信道響應(yīng),針對(duì)VoIP、PSTN、衛(wèi)星通話(huà)等信道的話(huà)音數(shù)據(jù),采用G.722、G.729、amr等音頻格式的轉(zhuǎn)換。
網(wǎng)絡(luò)特性干擾:針對(duì)有損編解碼,采用FFmpeg或SoX軟件工具,實(shí)現(xiàn)多種網(wǎng)絡(luò)音頻格式的互相轉(zhuǎn)換,例如mp3、aac、silk、opus等。由于每種格式存在不同碼率的影響,通常隨機(jī)選取高中低三種碼率進(jìn)行數(shù)據(jù)增強(qiáng)。
編碼譯碼器的影響:主要體現(xiàn)在寬帶編碼譯碼器(Wide-band Codec)或窄帶編碼譯碼器(Narrow-band Codec)的使用。帶通濾波的影響會(huì)造成高頻信息的丟失,可對(duì)音頻進(jìn)行寬帶或窄帶編碼譯碼器的模擬增強(qiáng)。
2. 嵌入表征數(shù)據(jù)增強(qiáng)
嵌入表征數(shù)據(jù)增強(qiáng)方法,是通過(guò)表征層噪聲分布匹配(Noise Distribution Matching,NDM)。基本思想是在嵌入空間對(duì)干凈和含噪嵌入表征計(jì)算差值,假定服從均勻分布、拉普拉斯分布或高斯分布,基于上述分布模型去估計(jì)分布參數(shù)。得到噪聲嵌入向量的分布估計(jì)之后,不再需要對(duì)原始數(shù)據(jù)進(jìn)行加噪再提取含噪嵌入向量,而是直接從噪聲嵌入向量分布估計(jì)中直接采樣得到,并與干凈嵌入向量相加得到加噪增強(qiáng)的嵌入向量。相較于常見(jiàn)的數(shù)據(jù)增強(qiáng)方法,在磁盤(pán)存儲(chǔ)、I/O資源和訓(xùn)練時(shí)間等方面均有節(jié)省。
3. 時(shí)頻域掩蔽增強(qiáng)
基于時(shí)頻域掩蔽增強(qiáng)訓(xùn)練的音頻鑒偽檢測(cè)泛化能力提升方法,采用時(shí)頻域掩蔽技術(shù),損失函數(shù)采用加權(quán)交叉熵?fù)p失和混合正則化損失相融合,避免了訓(xùn)練數(shù)據(jù)中真實(shí)音頻和偽造音頻不平衡造成的模型偏向某一類(lèi)別的風(fēng)險(xiǎn),提升模型的泛化能力。
利用音頻編輯軟件可輕易對(duì)真實(shí)音頻進(jìn)行剪切、復(fù)制、粘貼等拼接偽造操作,導(dǎo)致音頻的真實(shí)性與完整性不易判斷。按照音頻拼接方式的不同,可以分為同人語(yǔ)音或非同人音頻拼接、一段或多段拼接、真實(shí)片段音頻拼接或真實(shí)與偽造音頻片段拼接等多種形式。錄音取證中鑒別一段音頻檢材是否經(jīng)過(guò)拼接處理,已成為重要技術(shù)問(wèn)題。
輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)利用時(shí)間和空間上的平移不變性,以及長(zhǎng)短期記憶網(wǎng)絡(luò)在時(shí)域的上下文記憶的優(yōu)點(diǎn),對(duì)自然音頻和拼接音頻能夠更好地區(qū)分。通過(guò)滑窗的方法對(duì)待檢測(cè)音頻進(jìn)行鑒別,對(duì)窗內(nèi)音頻特征信息進(jìn)行分析,提高鑒別準(zhǔn)確率,并能提供拼接點(diǎn)數(shù)量和時(shí)間信息估計(jì)。
ASVspoof2015數(shù)據(jù)集是第一個(gè)用于偽造和檢測(cè)研究的主要數(shù)據(jù)集。該數(shù)據(jù)集僅針對(duì)邏輯訪(fǎng)問(wèn)攻擊場(chǎng)景,分為T(mén)rain、Dev和Eva三部分,其中Train和Dev包含真實(shí)和S1到S5共五種欺騙算法的虛假語(yǔ)音。Eva包含真實(shí)和S1到S10共十種欺騙算法的虛假語(yǔ)音。S10是基于開(kāi)源文本轉(zhuǎn)語(yǔ)音系統(tǒng)的拼接合成算法。使用ASVspoof2015-Eva的真實(shí)和S10數(shù)據(jù)構(gòu)成拼接語(yǔ)音測(cè)試集,共計(jì)9404條真實(shí)和18400條拼接虛假語(yǔ)音。
由于A(yíng)SVspoof2015未提供拼接訓(xùn)練集,本文采用兩個(gè)中文語(yǔ)音數(shù)據(jù)集自制拼接訓(xùn)練數(shù)據(jù),即THCHS-30(https:// www.openslr.org/18/)和MAGICDATA(https://www.openslr. org/68/),分別自制5470條真實(shí)和拼接虛假語(yǔ)音?;赑yTorch搭建實(shí)驗(yàn)環(huán)境,采用等錯(cuò)誤率(Equal Error Rate,EER)作為評(píng)價(jià)指標(biāo),EER指標(biāo)越接近于0表示模型的鑒偽檢測(cè)效果越好。
?
由表2,在較大的幀長(zhǎng)幀移和批次大小上取得了明顯的效果提升,改變LSTM的層數(shù)對(duì)檢測(cè)性能有進(jìn)一步的提升。本文提出的LCNN和LSTM的網(wǎng)絡(luò)結(jié)構(gòu),能夠提高拼接語(yǔ)音鑒別的準(zhǔn)確度。
注意力機(jī)制可以幫助模型對(duì)輸入的每個(gè)部分賦予不同的權(quán)重,抽取出更加關(guān)鍵及重要的信息,使模型做出更加準(zhǔn)確的判斷。采用端到端的架構(gòu)將音頻的原始信息經(jīng)過(guò)簡(jiǎn)單的轉(zhuǎn)換編碼格式等處理,然后直接送入模型進(jìn)行檢測(cè)是否為虛假音頻。網(wǎng)絡(luò)結(jié)構(gòu)包含音頻的嵌入特征提取模塊,為了更全面更精準(zhǔn)地學(xué)習(xí)偽造音頻和真實(shí)音頻的區(qū)別,嵌入特征提取模塊分為兩大部分,第一部分提取音頻全頻帶嵌入特征,第二部分提取音頻不同子頻帶嵌入特征。網(wǎng)絡(luò)引入組合注意機(jī)制模塊。為了讓網(wǎng)絡(luò)更好地學(xué)習(xí)音頻局部的特點(diǎn),該模塊分為三個(gè)子模塊:時(shí)間區(qū)域注意力模塊、頻譜區(qū)域注意力模塊和通道區(qū)域注意力模塊。網(wǎng)絡(luò)中引入了融合注意力模塊,既用于學(xué)習(xí)經(jīng)過(guò)組合注意力模塊進(jìn)行特征選擇之后保留的重要信息,也是對(duì)各個(gè)子頻帶和全頻帶進(jìn)一步利用注意力機(jī)制進(jìn)行融合學(xué)習(xí)。
ASVspoof2019數(shù)據(jù)集包含LA和PA兩個(gè)子集,LA子集為真實(shí)語(yǔ)音和合成/轉(zhuǎn)換語(yǔ)音,PA子集為真實(shí)語(yǔ)音和重放語(yǔ)音。使用ASVspoof2019-Eva的LA子集作為測(cè)試集,共計(jì)7355條真實(shí)和63882條虛假語(yǔ)音。使用ASVspoof2019-Train的LA子集作為訓(xùn)練集,共計(jì)2580條真實(shí)和22800條虛假語(yǔ)音?;赑yTorch搭建實(shí)驗(yàn)環(huán)境,引入基于殘差網(wǎng)絡(luò)的TSSDNet(Time-Domain Synthetic Speech Detection Net)[12],即Res-TSSDNet 端到端網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)對(duì)比。
?
從表3可以看出,目前端到端網(wǎng)絡(luò)比非端到端網(wǎng)絡(luò)在音頻鑒偽任務(wù)上取得了更好的檢測(cè)效果,基于圖卷積網(wǎng)絡(luò)和多重注意力機(jī)制的等錯(cuò)誤率低于1%,證明了方法的有效性。
為了提升檢測(cè)準(zhǔn)確率,降低檢測(cè)誤報(bào)率,實(shí)際音頻鑒偽應(yīng)用通常采用多系統(tǒng)融合的鑒偽檢測(cè)方法。以下是一種基于端到端網(wǎng)絡(luò)和非端到端網(wǎng)絡(luò)融合的音頻鑒偽系統(tǒng)。端到端網(wǎng)絡(luò)系統(tǒng)中,獲取音頻的序列信息并進(jìn)行歸一化,結(jié)合融合損失函數(shù)進(jìn)行優(yōu)化訓(xùn)練得到端到端模型。非端到端網(wǎng)絡(luò)系統(tǒng)中,提取音頻特征并輸入到后續(xù)模塊中,結(jié)合融合損失函數(shù)進(jìn)行優(yōu)化訓(xùn)練得到非端到端分類(lèi)模型。兩種網(wǎng)絡(luò)在訓(xùn)練時(shí)獨(dú)立進(jìn)行,在測(cè)試階段將對(duì)兩種模型檢測(cè)的分?jǐn)?shù)進(jìn)行融合,提升系統(tǒng)的準(zhǔn)確率和穩(wěn)定性。端到端網(wǎng)絡(luò)和非端到端網(wǎng)絡(luò)中注意機(jī)制均可采用圖注意力網(wǎng)絡(luò),該網(wǎng)絡(luò)每個(gè)節(jié)點(diǎn)可以根據(jù)相鄰節(jié)點(diǎn)的特征,為其分配不同的權(quán)值,另外引入注意力機(jī)制之后,只與相鄰節(jié)點(diǎn)有關(guān),無(wú)需得到整張圖的信息。圖注意力網(wǎng)絡(luò)可以處理變長(zhǎng)輸入,關(guān)注有影響力的輸入,可有效學(xué)習(xí)到真實(shí)音頻和偽造音頻之間的區(qū)別,從而提升模型檢測(cè)性能。
智能語(yǔ)音技術(shù)日新月異,加強(qiáng)音頻鑒偽檢測(cè)與防御技術(shù)研究十分必要。從音頻鑒偽攻防對(duì)抗角度,回顧了音頻鑒偽技術(shù)的主要發(fā)展歷程。從特征工程、深度學(xué)習(xí)、數(shù)據(jù)增強(qiáng)等方面介紹了音頻鑒偽技術(shù)路線(xiàn)。闡述了當(dāng)前主流的端到端鑒偽模型、注意力機(jī)制網(wǎng)絡(luò)、面向?qū)嶋H復(fù)雜場(chǎng)景的數(shù)據(jù)增強(qiáng)等關(guān)鍵技術(shù)。最后,以語(yǔ)音拼接的傳統(tǒng)偽造檢測(cè)、基于多重注意力機(jī)制的音頻鑒偽和基于多系統(tǒng)融合的音頻鑒偽為例,詳述了音頻鑒偽技術(shù)系統(tǒng)。從實(shí)驗(yàn)結(jié)果可以看出,基于空間平移不變性以及時(shí)域上下文記憶的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò),可實(shí)現(xiàn)對(duì)自然音頻和拼接音頻的區(qū)分。在音頻鑒偽任務(wù)上,端到端網(wǎng)絡(luò)比非端到端網(wǎng)絡(luò)普遍取得了更好的檢測(cè)性能,進(jìn)一步挖掘端到端網(wǎng)絡(luò)的效果值得更多關(guān)注。
實(shí)際場(chǎng)景對(duì)音頻鑒偽的通用性和泛化能力提出了更高要求,特別是對(duì)未見(jiàn)或跨域場(chǎng)景的偽造生成攻擊。多因子多系統(tǒng)融合鑒偽,基于場(chǎng)景遷移、預(yù)訓(xùn)練模型、自監(jiān)督學(xué)習(xí)(Self-supervised learning)的音頻鑒偽技術(shù)將是未來(lái)的技術(shù)發(fā)展趨勢(shì)。監(jiān)督學(xué)習(xí)模型極度依賴(lài)于大量的有標(biāo)簽數(shù)據(jù),而自監(jiān)督學(xué)習(xí)可以作為音頻鑒偽的前置任務(wù),從海量無(wú)標(biāo)簽數(shù)據(jù)中學(xué)習(xí)音頻的有效表征,更好地用于下游音頻鑒偽任務(wù)。