亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合MobileNet 與GhostVLAD 的欺騙語音檢測(cè)

        2021-03-25 02:09:52佳,馮
        軟件導(dǎo)刊 2021年3期
        關(guān)鍵詞:特征檢測(cè)方法

        閆 佳,馮 爽

        (1.中國傳媒大學(xué)計(jì)算機(jī)與網(wǎng)絡(luò)空間安全學(xué)院;2.智能融媒體教育部重點(diǎn)實(shí)驗(yàn)室;3.媒體融合與傳播國家重點(diǎn)實(shí)驗(yàn)室,北京 100024)

        0 引言

        自動(dòng)說話人驗(yàn)證技術(shù)[1]越來越多地應(yīng)用在安全領(lǐng)域,但是結(jié)果[2]顯示它的魯棒性不是很好,很容易受到各種各樣的欺騙。這些欺騙方法主要包括語音轉(zhuǎn)換、語音合成和重放等。為此,ASV spoof[3-5]發(fā)起相關(guān)競(jìng)賽,在自動(dòng)說話人驗(yàn)證(Automatic Speaker Venification,ASV)方面進(jìn)行反欺騙研究。ASVspoof 2013 指出這一嚴(yán)重的問題,但沒有具體解決方案;ASVspoof 2015 專注于尋找語音合成和語音轉(zhuǎn)換(Logical Access,LA)對(duì)策,ASVspoof 2017 專注于區(qū)分真實(shí)音頻和重放音頻(Physical Access,PA)方法;ASVspoof 2019則涵蓋了LA 和PA,但分為兩個(gè)子任務(wù),等誤差率(Equal Error Rate,EER)是其共同的度量標(biāo)準(zhǔn)。

        傳統(tǒng)的檢測(cè)欺騙語音方法是使用常數(shù)Q 倒譜系數(shù)(Constant Q Cepstrum Coefficients,CQCC)[6]或線性頻率倒譜系數(shù)(LFCC 特征)和高斯混合模型(Gausssian Mixture Model,GMM)分類器。隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)表現(xiàn)比直接使用GMM 要好得多。CNN 可以接收低級(jí)的手工制作特征輸入,隨著層數(shù)的加深可得到更為高級(jí)的特征表示,然后通過某種聚合方式將幀級(jí)特征聚合成話語級(jí)別特征。端到端的CNN 可通過優(yōu)化某種損失函數(shù)直接得到最終的得分。通過選定一個(gè)閾值來確定某段語音是真實(shí)語音(得分高于閾值)或是虛假的欺騙語音(得分低于閾值)。但是常用的一些CNN 變體(如Resnet[7]、VGG 等)都有網(wǎng)絡(luò)層數(shù)多、計(jì)算量大等問題,存儲(chǔ)空間以及能耗方面開銷巨大。為此,模型輕量化是目前的研究方向。MobileNet 在對(duì)象檢測(cè)、細(xì)粒度分類、人臉識(shí)別和大規(guī)模地理定位等方面證實(shí)它在模型參數(shù)和速度方面的有效性。

        在說話人識(shí)別領(lǐng)域和ASVspoof 領(lǐng)域,常用的聚合方法有平均池化[8-9]、全局平均池化[10]、統(tǒng)計(jì)池化[11]、可學(xué)習(xí)的字典編碼池化[12]、注意力池化[13]、注意統(tǒng)計(jì)池化[14]等。文獻(xiàn)[15]提出一種基于GhostVLAD 的聚合方法,在說話人識(shí)別領(lǐng)域能夠很好區(qū)分不同的說話人。本文是第一個(gè)使用GhostVLAD 聚合方法來區(qū)分真實(shí)語音和欺騙語音的。

        之前ASVspoof 2017 和ASVspoof 2019 的參賽者構(gòu)建了幾種不同的檢測(cè)欺騙語音方案。文獻(xiàn)[16]使用TDNN 網(wǎng)絡(luò)從MFCC 中生成x-vector 嵌入,這些嵌入聯(lián)合建立27 種環(huán)境和9 種欺騙類型模型;文獻(xiàn)[17]針對(duì)不同特征使用兩個(gè)VGG Net 的融合網(wǎng)絡(luò);文獻(xiàn)[18]提出一個(gè)有助于多任務(wù)學(xué)習(xí)的蝴蝶單元來傳播二進(jìn)制決策任務(wù)和其他輔助任務(wù)之間的共享表示;文獻(xiàn)[19]從數(shù)據(jù)增強(qiáng)、特征表示、分類和融合4 個(gè)方面優(yōu)化欺騙檢測(cè)系統(tǒng)的管道;文獻(xiàn)[20]對(duì)真實(shí)語音與欺騙語音的全局概率累積函數(shù)進(jìn)行實(shí)驗(yàn)研究;文獻(xiàn)[21]使用高分辨率的頻譜圖探索既包含幅度信息又包含相位信息和功率譜密度信息的互補(bǔ)信息;文獻(xiàn)[22]提出在真實(shí)的回放對(duì)基礎(chǔ)上建立回放設(shè)備特征提取器方法。

        本文主要貢獻(xiàn)有3 點(diǎn):①設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于Mo?bileNet 的變體模型來執(zhí)行語音的欺騙檢測(cè);②比較兩種不同的特征在MobileNet 下的性能;③探索了GhostVLAD 聚合方法在語音欺騙檢測(cè)中的性能。

        1 模型設(shè)計(jì)

        1.1 數(shù)據(jù)增廣

        在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,數(shù)據(jù)增廣(Data Augmentation,DA)能夠很好地提高模型的魯棒性。語音數(shù)據(jù)增廣方法主要有兩種:①利用外部數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)充,如VoxCeleb、AISHELL[23-24]、CN-CELB[25]等;②利用數(shù)據(jù)本身,比如添加各種噪音(如背景音樂、嘈雜人聲、不同環(huán)境音)和混響,進(jìn)行速度擾動(dòng)等數(shù)據(jù)增廣。具體為隨機(jī)使用0.9、1.0 和1.1 系數(shù)對(duì)ASVspoof2019 數(shù)據(jù)集中的語音進(jìn)行速度擾動(dòng),隨機(jī)使用Simulated Room Impulse Response Database 中不同房間的混響設(shè)置來添加混響。是否進(jìn)行速度擾動(dòng)、是否添加混響、是否保持原樣的概率都是1/3,這樣數(shù)據(jù)集就被擴(kuò)充了1 倍,即整體數(shù)據(jù)量是原來的2 倍。

        1.2 特征提取

        CQCC:該方法使用ASVspoof 2019 官方提供的Matlab程序來提取音頻的CQCC 特征。CQCC 特征通過常數(shù)Q 變換與傳統(tǒng)倒譜分析相結(jié)合得到。它對(duì)一般形式的欺騙語音非常敏感,并在各種特性中產(chǎn)生優(yōu)異性能。CQCC 的更多詳細(xì)信息見文獻(xiàn)[6]、[26]。

        振幅頻譜圖(Amplitude spectrum diagram,spec):深度神經(jīng)網(wǎng)絡(luò)模型的優(yōu)點(diǎn)是它們能夠從原始輸入數(shù)據(jù)中自動(dòng)學(xué)習(xí)高級(jí)特征表示,這種能力使得深度神經(jīng)網(wǎng)絡(luò)模型處理原始輸入的性能優(yōu)于處理人類手工制作的特征性能,故該方法選擇比梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Co?efficients,MFCC)或CQCC 都要更原始一些的振幅頻譜作為輸入,希望依靠神經(jīng)網(wǎng)絡(luò)將原始輸入轉(zhuǎn)換成網(wǎng)絡(luò)隱藏層中的更高層次表示。該方法使用長度為50ms、偏移量為20ms的漢明窗和2 048 個(gè)頻率間隔(FFT bin)提取頻譜圖,使用高分辨率的特征表示,即使用2 048 個(gè)頻率間隔而不是常用的512 個(gè)頻率間隔。

        該方法沒有選擇MFCC 或i-vector 作為輸入特征,因?yàn)樗麄冏畛跻宰畲蟪潭葏^(qū)分不同的說話人而設(shè)計(jì)。另外,有文獻(xiàn)指出傳統(tǒng)的MFCC 特征可能會(huì)丟失一些鑒別真實(shí)語音與欺騙語音的信息;文獻(xiàn)[27]的實(shí)驗(yàn)顯示i-vector 效果不好。

        1.3 模型結(jié)構(gòu)

        傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)如VGG 或Resnet 的內(nèi)存需求大、運(yùn)算量大,導(dǎo)致無法在移動(dòng)設(shè)備以及嵌入式設(shè)備上運(yùn)行。MobileNet 是由Google 團(tuán)隊(duì)在2017 年提出的,專注于移動(dòng)端或者嵌入式設(shè)備中的輕量級(jí)CNN 網(wǎng)絡(luò)[28]。相比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò),在準(zhǔn)確率小幅降低的前提下大大減少了模型參數(shù)與運(yùn)算量。據(jù)文獻(xiàn)[28]中的圖8 顯示,MobileNet V1 相比VGG-16 在數(shù)據(jù)集ImageNet 上準(zhǔn)確率減少了0.9%,但模型參數(shù)只有VGG-16 的1/32。MobileNetV2 相比MobileNetV1準(zhǔn)確率更高、模型更?。?9]。MobileNetV3 則集合了Mobile?NetV1 的深度可分離卷積、MobileNetV2 的線性瓶頸逆殘差結(jié)構(gòu)和MnasNet 的基于擠壓激勵(lì)結(jié)構(gòu)的輕量級(jí)注意力模型等3 種結(jié)構(gòu)優(yōu)點(diǎn)[30-31]。該方法使用了MobileNetV2(α=1.0,β=224)和MobileNetV3-large 網(wǎng)絡(luò)來探索其在檢測(cè)虛假語音方面的效果。MobileNetV2 的基礎(chǔ)結(jié)構(gòu)與文獻(xiàn)[29]中一致,MobileNetV3-large 的基礎(chǔ)結(jié)構(gòu)與文獻(xiàn)[30]中一致。

        1.4 聚合方法

        GhostVLAD[32]是在NetVLAD[33]的基礎(chǔ)上提出的,用于人臉識(shí)別聚類時(shí)自動(dòng)削減模糊圖像的權(quán)重。面部圖像可能在姿勢(shì)、表情、光照等各方面質(zhì)量有所不同。有些人臉非常模糊,對(duì)聚類不利,GhostVLAD 會(huì)對(duì)輸入的人臉質(zhì)量自動(dòng)計(jì)算權(quán)重。一般把一些噪聲數(shù)據(jù)自動(dòng)分配給一個(gè)“Ghost”類的想法具有普遍適用性,這種做法可以去除噪聲較大或損壞嚴(yán)重的數(shù)據(jù)。在聚合層也就是GhostVLAD 層中包含了Ghost 類。Ghost 類不利于聚類的樣本,高質(zhì)量的樣本信息對(duì)聚類貢獻(xiàn)很大。Ghost 類增強(qiáng)了網(wǎng)絡(luò)處理低質(zhì)量樣本能力,提取的嵌入可以軟分配到Ghost 類中,但不包括在聚合中。有關(guān)GhostVLAD 的公式等詳細(xì)信息可以參考文獻(xiàn)[32]。文獻(xiàn)[15]中的實(shí)驗(yàn)證實(shí)了GhostVLAD 方法在說話人識(shí)別中表現(xiàn)良好,探索了其在檢測(cè)虛假重放語音方面的應(yīng)用。

        2 實(shí)驗(yàn)設(shè)置

        使用PyTorch 實(shí)現(xiàn)網(wǎng)絡(luò)模型,使用帶有NVIDIA GPU 的臺(tái)式機(jī)訓(xùn)練模型。數(shù)據(jù)增強(qiáng)過程使用Kaldi 中的方法,CQCC 特征提取使用Matlab,振幅頻譜圖則使用Python 中的Scipy.signal.spectrogram。

        2.1 數(shù)據(jù)集

        該方法使用ASVspoof 2019 組織者提供的PA 和LA 數(shù)據(jù)集,它們是從20 名說話者(8 名男性、12 名女性)中以16 kHz 采樣率和16 位記錄的話語。各個(gè)數(shù)據(jù)集中真實(shí)語音和欺騙語音數(shù)量見表1,有很大的類別不平衡問題。其中,PA 中的欺騙語音是在27 種不同的錄制聲學(xué)環(huán)境和9 種不同質(zhì)量的重放配置下生成的。LA 中的欺騙語音是根據(jù)兩個(gè)語音轉(zhuǎn)換算法和4 個(gè)語音合成算法生成的。LA 測(cè)試集包含沒有在訓(xùn)練集和開發(fā)集中出現(xiàn)的欺騙語音生成算法。

        Table 1 Number comparison of real speech and spoofed speech in PA and LA表1 各數(shù)據(jù)集中真實(shí)語音和欺騙語音數(shù)量對(duì)比

        2.2 基線方法

        使用ASVspoof 2019 組織者提供的CQCC-GMM 和LF?CC-GMM 作為基線系統(tǒng),更多詳細(xì)信息可以參考官方主頁。官方基線系統(tǒng)是基于20 維LFCC 和30 維CQCC 的,兩種方法都提取了靜態(tài)系數(shù)、增量系數(shù)和雙增量系數(shù),后端是一個(gè)二分類的GMM,有512 個(gè)分量。

        2.3 評(píng)估指標(biāo)

        使用等錯(cuò)誤率(Equal Error Rate,EER)作為本次實(shí)驗(yàn)的評(píng)估指標(biāo)。在選定某個(gè)閾值之后,對(duì)作為CNN 輸出結(jié)果的得分可計(jì)算出兩種錯(cuò)誤率,即錯(cuò)誤拒絕率和錯(cuò)誤接受率。通過調(diào)整閾值可以得到這兩種錯(cuò)誤率相等或最接近的一個(gè)操作點(diǎn),即EER。

        2.4 實(shí)驗(yàn)過程

        由于本次數(shù)據(jù)中欺騙語音數(shù)量遠(yuǎn)大于真實(shí)語音數(shù)量,因此在每個(gè)batch 的數(shù)據(jù)采樣中會(huì)隨機(jī)選擇和真實(shí)語音同等數(shù)量的欺騙語音進(jìn)行網(wǎng)絡(luò)訓(xùn)練,以通過提高epoch 的數(shù)量來使用所有數(shù)據(jù)。

        為了適應(yīng)MobileNet 的網(wǎng)絡(luò)輸入尺寸,使用裁剪長話語或復(fù)制短話語的方法得到一個(gè)固定大小為224×224 的頻譜圖,裁剪剩余數(shù)據(jù)作為一個(gè)新的數(shù)據(jù)加入到原有數(shù)據(jù)中,在最開始使用1×1 的卷積得到一個(gè)3 通道的輸入。GhostV?LAD 實(shí)驗(yàn)則是把網(wǎng)絡(luò)的最后一個(gè)池化層替換成GhostVLAD層,使用文獻(xiàn)[14]中效果最好的參數(shù)設(shè)置,即vlad clusters設(shè)為8,ghost clusters 設(shè)為2。使用卷積核(即過濾器)的數(shù)量來控制vladclusters 和ghostclusters 的數(shù)目。

        最后的分類層中只有兩個(gè)節(jié)點(diǎn),表示為真實(shí)語音和欺騙語音。在交叉熵?fù)p失監(jiān)督下以端到端的方式優(yōu)化整個(gè)檢測(cè)系統(tǒng),最終的話語水平得分可以直接從最后一層輸出中獲取。

        3 實(shí)驗(yàn)結(jié)果與分析

        表2 展示了幾個(gè)配置不同的模型和基線算法在開發(fā)集和測(cè)試集上的EER 情況。該方法暫時(shí)沒有對(duì)得分進(jìn)行融合,只是進(jìn)行了幾個(gè)單系統(tǒng)的性能比較。表2 第1-6 行展示在PA 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,由最后一列數(shù)字可以看出,4 種單系統(tǒng)性能均超過了兩種基線系統(tǒng)。性能最好的單系統(tǒng)在第5 行,EER 是6.84,相比基線最好的結(jié)果11.04 降低了38%。然而GhostVLAD 方法并沒有表現(xiàn)出期望的結(jié)果,原因需要進(jìn)一步探究。

        圖1 展示了不同配置條件下CQCC 和spec 兩種特征在PA 測(cè)試集上的性能曲線。橫軸為9 種不同的配置,縱軸為EER。模型結(jié)構(gòu)使用的是MobileNetV3-large,聚合方法為Average。每個(gè)配置用兩個(gè)字母命名,第一個(gè)字母代表錄音設(shè)備與真實(shí)說話人之間的距離,“A”表示10-50cm,“B”表示50-100cm,“C”表示>100cm;第二個(gè)字母表示重放設(shè)備的質(zhì)量,其中A 表示質(zhì)量非常高,B 表示高,C 表示低。結(jié)果表明,隨著距離的減小和重放設(shè)備質(zhì)量的提高,反欺騙任務(wù)變得越來越困難,在設(shè)置“AA”時(shí)會(huì)獲得最差的結(jié)果。

        表2 中第7-12 行展示了在LA 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。由最后兩列數(shù)字比較可知,開發(fā)集的結(jié)果與測(cè)試集結(jié)果相差較大,這可能是由于測(cè)試集中包含了更多的未知欺騙類型。在LA 條件下,GhostVLAD 方法要比PA 情況下效果好很多。第12 行含有GhostVLAD 方法的模型在測(cè)試集上得到了最佳的EER 7.04,相比基線最好的結(jié)果8.09 降低了13%。由于不同的語音轉(zhuǎn)換或語音合成方法可能對(duì)不同特征造成不同程度的損失,故需要進(jìn)一步區(qū)分具體情況研究不同的欺騙方法。

        Fig.1 Model performance curves under different playback configurations圖1 不同重放配置條件下模型性能曲線

        總的來說,經(jīng)過數(shù)據(jù)增廣后,本文模型在PA 條件下比LA 條件下表現(xiàn)得更好,這可能是由于在PA 中特征來自于錄制環(huán)境或重放設(shè)備,更易于學(xué)習(xí)和泛化。而在LA 中,特征的不同部分被不同的算法修改,再加上測(cè)試數(shù)據(jù)集中的大多數(shù)欺騙類型是未知的,在訓(xùn)練集中沒有出現(xiàn)過,因而更增加了模型的挑戰(zhàn)性。

        Table 2 Score comparison of different model configurations表2 不同配置的得分對(duì)比

        4 結(jié)語

        本文將MobileNet 和GhostVLAD 方法應(yīng)用于欺騙音頻檢測(cè),可同時(shí)適用于PA 情況和LA 情況。結(jié)合兩種不同的特征對(duì)模型性能進(jìn)行比較。根據(jù)ASVspoof 2019 測(cè)試集上的結(jié)果可知,該模型對(duì)重放語言欺騙(PA)將EER 指標(biāo)降低了38%,針對(duì)語音合成或語音轉(zhuǎn)換欺騙(LA)將EER 指標(biāo)降低了13%。對(duì)于GhostVLAD 的超參數(shù)選擇還需進(jìn)行更多實(shí)驗(yàn)。后續(xù)研究方向是如何更好地提高模型對(duì)未知欺騙類型的泛化能力??赡艿姆椒ㄓ校孩偈褂锰卣魅诤霞夹g(shù),把互補(bǔ)的特征拼接起來再輸入網(wǎng)絡(luò);②對(duì)不同的網(wǎng)絡(luò)進(jìn)行集成,這樣可以訓(xùn)練網(wǎng)絡(luò)相互協(xié)作,獲得更好的融合效果。

        猜你喜歡
        特征檢測(cè)方法
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        可能是方法不對(duì)
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        精品一二三四区中文字幕| 中国精品视频一区二区三区| 久久精品韩国日本国产| 国产av剧情精品麻豆| 国产精品免费一区二区三区四区 | 国产自产在线视频一区| 国产色视频一区二区三区不卡 | 亚洲av无码精品色午夜果冻不卡| 成人午夜视频一区二区无码| 国产一区二区三区在线观看蜜桃| 亚洲 另类 小说 国产精品| 麻豆精品久久久久久久99蜜桃| 最新亚洲人AV日韩一区二区| 久久狠狠髙潮曰十八女人| 一个人看的视频在线观看| 手机看片福利一区二区三区| 国产乱子伦精品免费女| 白白色日韩免费在线观看| 97一期涩涩97片久久久久久久 | 亚洲AV无码久久久久调教| av天堂免费在线播放| 中文字幕乱码熟妇五十中出| 岛国AV一区二区三区在线观看| 蜜桃视频一区二区三区在线| 免费的小黄片在线观看视频| 久久中文精品无码中文字幕下载| 无码国产精品一区二区免费网曝| 亚洲一区二区三区精品久久| 亚洲精品乱码久久久久久不卡| 最近中文字幕在线mv视频在线| 国产又爽又黄又不遮挡视频| 少妇被按摩出高潮了一区二区| 把女邻居弄到潮喷的性经历| 波多野结衣在线播放一区| 91青青草手机在线视频| 国产精品久久久亚洲| 国产在线精品一区二区不卡| 水蜜桃视频在线观看免费18| 在线播放av不卡国产日韩| 玩弄少妇高潮ⅹxxxyw| mm在线精品视频|