李 璨,王讓定,嚴(yán)迪群
(寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波 315211)(*通信作者電子郵箱wangrangding@nbu.edu.cn)
隨著互聯(lián)網(wǎng)的不斷發(fā)展和便攜式智能終端的快速普及,人們能夠更加方便、快捷地借助各種數(shù)字媒體(圖像、音頻、視頻)傳遞信息。與此同時(shí),隨著回放設(shè)備、高保真錄音設(shè)備的普及,合法用戶的密語(yǔ)在請(qǐng)求進(jìn)入識(shí)別系統(tǒng)時(shí)極易被攻擊者偷錄成功。翻錄語(yǔ)音經(jīng)高保真錄音設(shè)備偷錄、回放設(shè)備回放,與原始語(yǔ)音具有較高的相似度,一些說(shuō)話人認(rèn)證系統(tǒng)也無(wú)法辨別,危害了合法用戶的權(quán)益。而且翻錄語(yǔ)音因偷錄設(shè)備體積小、易偷錄、成功率高等優(yōu)勢(shì),已成為攻擊語(yǔ)音認(rèn)證系統(tǒng)中最易實(shí)施的方法,因此,對(duì)翻錄語(yǔ)音檢測(cè)受到業(yè)內(nèi)的廣泛重視。
近年來(lái),對(duì)翻錄語(yǔ)音檢測(cè)研究取得了一定的成果。Shang等[1-2]根據(jù)語(yǔ)音產(chǎn)生的隨機(jī)性,對(duì)比了原始語(yǔ)音與翻錄語(yǔ)音Peak map的不同,提出了一種基于Peak map相似度的錄音回放檢測(cè)算法。若相似度大于設(shè)定的閾值,判定為翻錄語(yǔ)音;反之,判定為原始語(yǔ)音。在此基礎(chǔ)上,Jakub等[3]對(duì)該算法進(jìn)行了改進(jìn),在Peak map特性中加入了各頻率點(diǎn)的位置關(guān)系;Wu等[4]將音頻檢索中的譜位圖峰值特征應(yīng)用于翻錄語(yǔ)音檢測(cè),依據(jù)待認(rèn)證語(yǔ)音與系統(tǒng)保存的語(yǔ)音在該特征上的相似度來(lái)判斷當(dāng)前語(yǔ)音是否為合法語(yǔ)音。以上方法只能針對(duì)文本相關(guān)的識(shí)別系統(tǒng),無(wú)法適用于文本無(wú)關(guān)的翻錄語(yǔ)音檢測(cè),具有較大的局限性。張利鵬等[5]根據(jù)信道模式特征,利用翻錄語(yǔ)音信道與原始語(yǔ)音信道之間的差異,提出了一種基于靜音段的梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient, MFCC)的翻錄語(yǔ)音檢測(cè)的方法,該算法用語(yǔ)音數(shù)據(jù)的靜音段對(duì)信道建模,檢測(cè)待測(cè)語(yǔ)音與訓(xùn)練語(yǔ)音的信道是否相同,從而判斷是否為回放攻擊。王志鋒等[6-7]根據(jù)原始語(yǔ)音與翻錄語(yǔ)音產(chǎn)生的信道不同,提取信道模式噪聲,并利用支持向量機(jī)(Support Vector Machine, SVM)得到了很好的分類結(jié)果。Villalba等[8-9]依據(jù)遠(yuǎn)距離的錄音會(huì)受到噪聲和混響的影響,提出了針對(duì)遠(yuǎn)距離偷錄語(yǔ)音的檢測(cè)方法。Chen等[10]根據(jù)設(shè)備信道對(duì)語(yǔ)音編碼過(guò)程的影響,提出了一種基于長(zhǎng)窗比例因子的翻錄語(yǔ)音檢測(cè)算法,但該類方法提取的信道模式噪聲并非準(zhǔn)確,且錄制語(yǔ)音的設(shè)備過(guò)于單一,且未對(duì)多種不同的偷錄設(shè)備及回放設(shè)備進(jìn)行分析與研究。
目前針對(duì)翻錄語(yǔ)音檢測(cè)方面大部分工作都是針對(duì)一種偷錄設(shè)備及回放設(shè)備的翻錄語(yǔ)音,對(duì)多種錄音設(shè)備的翻錄語(yǔ)音檢測(cè)研究的關(guān)注較少。而在現(xiàn)實(shí)生活中,各種高保真錄音設(shè)備隨處可見(jiàn),如錄音筆及各種智能手機(jī)。這類偷錄設(shè)備攜帶便利且不易察覺(jué),且獲得的翻錄語(yǔ)音與原始語(yǔ)音相似性較高,因此這類錄音設(shè)備是目前較為主流的偷錄設(shè)備。深度學(xué)習(xí)本質(zhì)上是構(gòu)建含有多隱層的機(jī)器學(xué)習(xí)架構(gòu)模型,通過(guò)大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練,得到大量更具有代表性的特征信息,從而對(duì)樣本進(jìn)行分類和預(yù)測(cè),提高分類和預(yù)測(cè)的精度[11]。與人工設(shè)計(jì)的特征提取方法相比,利用深度學(xué)習(xí)模型得到的數(shù)據(jù)特征,揭示了大數(shù)據(jù)的豐富內(nèi)在信息。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)能夠提取出大量數(shù)據(jù)樣本潛藏的特征信息,這使得卷積神經(jīng)網(wǎng)絡(luò)在模式識(shí)別的各個(gè)領(lǐng)域得到了廣泛的應(yīng)用。
本文通過(guò)對(duì)比原始語(yǔ)音與翻錄語(yǔ)音的語(yǔ)譜圖,并將其輸入到卷積神經(jīng)網(wǎng)絡(luò)中,從而進(jìn)行特征提取及分類。本文分析討論了不同的網(wǎng)絡(luò)參數(shù)與輸入特征對(duì)檢測(cè)結(jié)果的影響,搭建了適用于檢測(cè)翻錄語(yǔ)音的網(wǎng)絡(luò)框架,并對(duì)不同偷錄及回放設(shè)備的翻錄語(yǔ)音進(jìn)行了交叉實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該方法可以很好地判斷待測(cè)語(yǔ)音是否為翻錄語(yǔ)音。
語(yǔ)譜圖中包含了大量的與語(yǔ)音的語(yǔ)句特性有關(guān)的信息,它綜合了頻譜圖和時(shí)域波形的特點(diǎn),明顯地顯示出語(yǔ)音頻譜隨時(shí)間的變化情況。由于它通過(guò)二維圖像來(lái)反映所包含的語(yǔ)音中豐富的信息,被稱為“可視的語(yǔ)言”。相比原始語(yǔ)音,翻錄語(yǔ)音大多經(jīng)歷了一次錄制和回放過(guò)程;而這些設(shè)備將不可避免地對(duì)語(yǔ)音信號(hào)進(jìn)行再一次的采集及編解碼,這就造成翻錄語(yǔ)音將攜帶固有的屬性,這種屬性將不同于原始語(yǔ)音。為了更全面分析語(yǔ)音信號(hào)的時(shí)間、頻率的變化,本文將語(yǔ)譜圖作為CNN的輸入對(duì)象。
如圖1所示,其中圖1(a)是一段經(jīng)Aigo R6620錄音筆原始錄制的語(yǔ)音信號(hào)的語(yǔ)譜圖,該語(yǔ)音信號(hào)的具體內(nèi)容為普通話朗讀的“芝麻開(kāi)門-我是土豪-千里共嬋娟”。圖1(b)~(d)是對(duì)應(yīng)的翻錄語(yǔ)音信號(hào)的語(yǔ)譜圖,翻錄過(guò)程中的偷錄設(shè)備分別為Aigo R6620、iPhone6和SONY PX440,回放設(shè)備則選擇的是Huawei AM08。
圖2中的語(yǔ)譜圖分別與圖1一一對(duì)應(yīng),其回放設(shè)備為Philips DTM3115。由圖1和圖2可以看出,與圖1(a)的原始錄制語(yǔ)音相比,3個(gè)二次翻錄語(yǔ)音在某些固定的頻率帶上均出現(xiàn)了“截?cái)唷爆F(xiàn)象,如在1 800~2 200 Hz、3 800~4 200 Hz的頻帶上,整個(gè)時(shí)間軸方向上信號(hào)的頻率幅度均出現(xiàn)了明顯的下降;另外,翻錄語(yǔ)音的頻率分量略大于原始語(yǔ)音。在回放設(shè)備為Philips DTM3115,偷錄設(shè)備為iPhone6和SONY PX440時(shí)的翻錄語(yǔ)音表現(xiàn)的最為明顯。經(jīng)Aigo R6620二次采集得到的翻錄語(yǔ)音與原始語(yǔ)音相似度最高。
圖1 原始語(yǔ)音與翻錄語(yǔ)音語(yǔ)譜圖(Huawei AM08)
圖2 原始語(yǔ)音與翻錄語(yǔ)音語(yǔ)譜圖(Philips DTM3115)
總體來(lái)看,經(jīng)過(guò)偷錄與回放的翻錄語(yǔ)音,其頻率值均略大于原始語(yǔ)音。這是因?yàn)榉浾Z(yǔ)音在偷錄過(guò)程中經(jīng)過(guò)電平調(diào)整、A/D轉(zhuǎn)換、編解碼等一系列的操作,引入了一定的設(shè)備噪聲及其他噪聲,回放讓這種噪聲更加明顯地顯現(xiàn)出來(lái)。
CNN是一種特殊的深層的神經(jīng)網(wǎng)絡(luò)模型,具有自動(dòng)提取特征、執(zhí)行分類的功能。卷積神經(jīng)網(wǎng)絡(luò)已在音樂(lè)信息檢索、中值濾波檢測(cè)等方面有了很好的應(yīng)用。CNN一般由一組或多組卷積層+池化層構(gòu)成。基于此,本文將構(gòu)建一個(gè)網(wǎng)絡(luò)框架使之更有效地區(qū)分原始語(yǔ)音與翻錄語(yǔ)音之間的細(xì)微差異。首先提取原始語(yǔ)音與翻錄語(yǔ)音的語(yǔ)譜圖;然后將其輸入到CNN網(wǎng)絡(luò)框架中,使其自動(dòng)進(jìn)行特征提取;最后得到分類結(jié)果。文中采樣兩層卷積、一層池化的方式構(gòu)成。圖3所示為CNN網(wǎng)絡(luò)框架。表1為網(wǎng)絡(luò)框架的參數(shù)設(shè)置。
圖3 CNN網(wǎng)絡(luò)框架
Tab. 1 Parameters setting of network architecture
卷積神經(jīng)網(wǎng)絡(luò)通過(guò)卷積核對(duì)局部特征進(jìn)行分析。在一個(gè)卷積層上,上一層的特征圖被可學(xué)習(xí)的卷積核進(jìn)行卷積,然后通過(guò)激活函數(shù),輸出得到特征圖。一般來(lái)說(shuō),卷積層和激活函數(shù)的關(guān)系可表示為:
(1)
池化層的作用是對(duì)輸入層進(jìn)行下采樣處理。如果有N個(gè)輸入圖,那么則會(huì)產(chǎn)生N個(gè)輸出層。池化層的每個(gè)特征圖唯一對(duì)應(yīng)前一層的一個(gè)特征圖,各特征圖組合前一層對(duì)應(yīng)特征圖大小相同但互不重疊的所有子區(qū)域,使得卷積神經(jīng)網(wǎng)絡(luò)具有一定的空間不變性,從而實(shí)現(xiàn)一定程度的轉(zhuǎn)換和畸變不變。下采樣過(guò)程利用圖像局部相關(guān)性的原理,對(duì)圖像進(jìn)行子抽樣,以減少數(shù)據(jù)處理量同時(shí)保留有用的信息。文中采用最大池化算法,即對(duì)固定窗長(zhǎng)內(nèi)的節(jié)點(diǎn)選取最大值進(jìn)行輸出。對(duì)應(yīng)的關(guān)系式為:
(2)
經(jīng)過(guò)池化層得到的特征圖作為輸入進(jìn)入全連接層,全連接層將池化層的各個(gè)輸出綜合起來(lái),最后通過(guò)輸出層得到各個(gè)狀態(tài)的分類后驗(yàn)概率。卷積神經(jīng)網(wǎng)絡(luò)通過(guò)損失函數(shù)的計(jì)算推動(dòng)分類。本文中使用的損失函數(shù)是SoftMax回歸函數(shù)。本文可以將其理解為一個(gè)多類分類器。
為了驗(yàn)證本文方法的有效性,文中構(gòu)建了一個(gè)語(yǔ)音數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)的具體設(shè)置如下:其語(yǔ)料來(lái)源于863語(yǔ)料庫(kù)[12];人員分布為:18男14女;設(shè)備選取主要涉及到:語(yǔ)音采集設(shè)備、偷錄設(shè)備、回放設(shè)備。設(shè)備的詳細(xì)信息如表2所示。
表2 設(shè)備信息
語(yǔ)音數(shù)據(jù)庫(kù)在安靜環(huán)境下錄制,錄音人員根據(jù)自身說(shuō)話習(xí)慣閱讀語(yǔ)料庫(kù)內(nèi)容,并使用采集設(shè)備進(jìn)行語(yǔ)音采集,參與者距采集設(shè)備距離約為20 cm,本文將這個(gè)過(guò)程采集設(shè)備采集到的語(yǔ)音稱為原始語(yǔ)音。按照實(shí)際過(guò)程模擬偷錄過(guò)程,偷錄設(shè)備放置距錄音者70 cm處,在參與者閱讀以上語(yǔ)料的同時(shí),將偷錄設(shè)備同時(shí)打開(kāi)到正常錄制功能下,錄制參與者的語(yǔ)音內(nèi)容。將偷錄設(shè)備采集到的語(yǔ)音經(jīng)音響回放,并使用采集設(shè)備錄制該回放語(yǔ)音?;胤乓繇懢嚯x采集設(shè)備20 cm左右。文中將此次采集設(shè)備采集到的語(yǔ)音稱為翻錄語(yǔ)音。實(shí)驗(yàn)樣本為44 100個(gè)(原始語(yǔ)音6 300個(gè),翻錄語(yǔ)音37 800個(gè)),每段語(yǔ)音為2 s。樣本詳情如表3所示。
表3 原始語(yǔ)音和翻錄語(yǔ)音樣本詳情
網(wǎng)絡(luò)通過(guò)卷積核對(duì)局部特征進(jìn)行分析,通過(guò)池化層加強(qiáng)抽取出來(lái)的特征魯棒性,最后通過(guò)全連接層建立模型得到最終的分類結(jié)果。在這個(gè)過(guò)程中,卷積核對(duì)輸入特征進(jìn)行分析并提取,對(duì)分類結(jié)果起著較大的影響。卷積核的參數(shù)設(shè)置共有兩個(gè):核大小和核個(gè)數(shù)。
原則上,卷積核(濾波器)的個(gè)數(shù)為輸出特征圖的個(gè)數(shù),即若卷積核個(gè)數(shù)為N,則輸出為N張?zhí)卣鲌D。隨著卷積核個(gè)數(shù)的增加,輸出的特征圖也就越多,網(wǎng)絡(luò)表示特征空間就越大,學(xué)習(xí)能力也就越強(qiáng),識(shí)別率也就越高。表4和表5分別給出了卷積核個(gè)數(shù)和核大小對(duì)檢測(cè)性能的影響。表中的ACC為檢測(cè)識(shí)別率(Accuracy),Loss為損失率,時(shí)間為每一次迭代所產(chǎn)生的大約時(shí)間。表4的實(shí)驗(yàn)約束條件是保證網(wǎng)絡(luò)層數(shù)結(jié)構(gòu)和其他因素不變的情況下,調(diào)整其兩層卷積核個(gè)數(shù);表5的實(shí)驗(yàn)約束條件是在卷積核個(gè)數(shù)為32- 64、池化層為1×4、全連接層為256的情況下,調(diào)整改變其兩層卷積核的大小。實(shí)驗(yàn)樣本為原始語(yǔ)音6 300個(gè),翻錄語(yǔ)音6 300個(gè)。16- 32、32- 32、32- 64、64- 64分別表示第一層和第二層卷積核的個(gè)數(shù)的設(shè)置。
表4 卷積核數(shù)對(duì)檢測(cè)性能的影響
表5 卷積核大小對(duì)檢測(cè)性能的影響
實(shí)驗(yàn)結(jié)果表明,隨著卷積核個(gè)數(shù)的增加,檢測(cè)性能越好。不同的卷積核從不同的角度提取不同的特征。若卷積核的個(gè)數(shù)較少,則不能充分提取到有用的信息;若卷積核個(gè)數(shù)較多,則運(yùn)算時(shí)間會(huì)增加,但其識(shí)別率提高并不明顯。另外,隨著卷積核大小的逐漸細(xì)化,識(shí)別率有所提高,但上升幅度較弱,這也說(shuō)明了卷積核的大小對(duì)檢測(cè)性能的影響較弱。綜合考慮,本文最終選擇的卷積核個(gè)數(shù)為32- 64、即第一層卷積核個(gè)數(shù)為32個(gè),第二層卷積核個(gè)數(shù)為64個(gè)。卷積核大小為1×11- 2×6。
語(yǔ)音信號(hào)經(jīng)過(guò)分幀、加窗、傅里葉變換,計(jì)算其能量譜密度得到語(yǔ)譜圖。不同的窗移將會(huì)產(chǎn)生不同的語(yǔ)音信號(hào)語(yǔ)譜圖,包含的語(yǔ)音信息也就不同。圖4為窗長(zhǎng)設(shè)置為512點(diǎn),傅里葉采樣點(diǎn)數(shù)為1 024,窗移為128與256點(diǎn)下的翻錄語(yǔ)音檢測(cè)。其中圖4(a)為檢測(cè)識(shí)別率曲線,圖4(b)為檢測(cè)的損失率。實(shí)驗(yàn)樣本為原始語(yǔ)音6 300個(gè),翻錄語(yǔ)音6 300個(gè),70%用于訓(xùn)練,其余用于測(cè)試。
在翻錄過(guò)程中,偷錄及回放設(shè)備種類繁多,不同的偷錄和回放設(shè)備將對(duì)檢測(cè)結(jié)果產(chǎn)生不同的影響,交叉實(shí)驗(yàn)的目的就是為了更好地檢驗(yàn)算法的適用性。在實(shí)驗(yàn)中,本文以一種偷錄及回放設(shè)備得到的翻錄語(yǔ)音作為訓(xùn)練語(yǔ)音,其余任意一種偷錄及回放設(shè)備得到的翻錄語(yǔ)音作為測(cè)試語(yǔ)音。原始語(yǔ)音6 300個(gè),翻錄語(yǔ)音37 800個(gè)。其中,檢測(cè)結(jié)果用ACC(%)表示。實(shí)驗(yàn)結(jié)果如表6所示。
由表6可以看出,當(dāng)回放設(shè)備相同時(shí),不同偷錄設(shè)備下的交叉可以得到較好的檢測(cè)率,其檢測(cè)率均能達(dá)到93%以上,其中,回放設(shè)備為Huawei AM08,偷錄設(shè)備為Aigo R6620時(shí)翻錄語(yǔ)音檢測(cè)率達(dá)到了99.28%。當(dāng)不同回放設(shè)備,不同偷錄設(shè)備下交叉時(shí),本文方法具有一定的檢測(cè)效果,但結(jié)果不及相同回放設(shè)備下不同偷錄設(shè)備的翻錄語(yǔ)音檢測(cè)。由此得出,相較于偷錄設(shè)備,回放設(shè)備對(duì)翻錄語(yǔ)音的產(chǎn)生影響較大。
圖4 不同窗移下的檢測(cè)結(jié)果
%
在相同的數(shù)據(jù)庫(kù)下,將本文算法與較為典型的3種算法——文獻(xiàn)[5,7,10]中算法進(jìn)行對(duì)比。圖5所示為原始語(yǔ)音與翻錄語(yǔ)音產(chǎn)生的過(guò)程圖。文獻(xiàn)[5]算法采用短時(shí)能量法提取靜音,譜減法進(jìn)行濾波,提取MFCC特征參數(shù);文獻(xiàn)[7]方法采用高通濾波器進(jìn)行去噪,提取信道模式噪聲,并提取6個(gè)統(tǒng)計(jì)特征及6階Legendre多項(xiàng)式系數(shù);文獻(xiàn)[10]算法將語(yǔ)音信號(hào)進(jìn)行MP3編碼后,提取比例因子統(tǒng)計(jì)特征作為檢測(cè)特征。實(shí)驗(yàn)中,原始語(yǔ)音6 300個(gè),不同偷錄及回放設(shè)備的翻錄語(yǔ)音6 300個(gè)。其中,70%用于訓(xùn)練,其余用于測(cè)試。實(shí)驗(yàn)結(jié)果如表7所示。
由表7可以看出,相較于傳統(tǒng)的人工提取特征檢測(cè)方法,對(duì)于多種偷錄及回放設(shè)備的翻錄語(yǔ)音,本文算法優(yōu)于文獻(xiàn)[5,7,10]算法,識(shí)別率分別提高了約26個(gè)百分點(diǎn)、21個(gè)百分點(diǎn)和0.35個(gè)百分點(diǎn)。從圖5可以看出,翻錄語(yǔ)音在產(chǎn)生的過(guò)程中,經(jīng)歷了壓縮、編碼解碼的過(guò)程,會(huì)在一定程度上使得翻錄語(yǔ)音產(chǎn)生失真。而不同的偷錄及回放設(shè)備,將對(duì)翻錄語(yǔ)音產(chǎn)生不同的影響。文獻(xiàn)[5,7]中的方法通過(guò)提取信道特征建立模型,但不同的錄音設(shè)備其信道特征不同,所用的語(yǔ)音庫(kù)錄音設(shè)備單一,其方法并不能解決多種偷錄及回放設(shè)備的翻錄語(yǔ)音。本文所提方法解決了文獻(xiàn)[5,7]中設(shè)備過(guò)于單一的問(wèn)題,更具實(shí)用性。
圖5 原始語(yǔ)音與翻錄語(yǔ)音產(chǎn)生的過(guò)程
表7 4種算法的識(shí)別率對(duì)比 %
本文針對(duì)多種偷錄設(shè)備與回放設(shè)備的翻錄語(yǔ)音攻擊,提出了一種基于CNN的翻錄語(yǔ)音檢測(cè)算法,并通過(guò)模擬實(shí)際翻錄語(yǔ)音攻擊的整個(gè)物理過(guò)程,建立了實(shí)驗(yàn)語(yǔ)音數(shù)據(jù)庫(kù)。本文搭建了適用于檢測(cè)翻錄語(yǔ)音的網(wǎng)絡(luò)框架,分析了不同卷積核大小及卷積核個(gè)數(shù)對(duì)識(shí)別率的影響,確定了最佳檢測(cè)效果時(shí)的窗移長(zhǎng)度,對(duì)不同偷錄及回放設(shè)備的翻錄語(yǔ)音進(jìn)行了交叉實(shí)驗(yàn)檢測(cè),并與現(xiàn)有的經(jīng)典文獻(xiàn)算法進(jìn)行了對(duì)比,且性能優(yōu)于現(xiàn)有算法。在今后的研究中,將需進(jìn)一步探究各種錄音設(shè)備及回放設(shè)備對(duì)語(yǔ)音的影響,并且在檢測(cè)方法上進(jìn)行創(chuàng)新和改進(jìn)。
References)
[1] SHANG W, STEVENSON M. A playback attack detector for speaker verification systems [C]// Proceedings of the 2008 International Symposium on Communications, Control and Signal Processing. Piscataway, NJ: IEEE, 2008: 1144-1149.
[2] SHANG W, STEVENSON M. Score normalization in playback attack detection [C]// Proceedings of the 2010 IEEE International Conference on Acoustics Speech and Signal Processing 2010. Piscataway, NJ: IEEE, 2010: 1678-1681.
[3] JAKUB G, MARCIN G, RAFAL S. Playback attack detection for text-dependent speaker verification over telephone channels [J]. Speech Communication, 2015, 67: 143-153.
[4] WU Z, GAO S, CLING E S, et al. A study on replay attack and anti-spoofing for text-dependent speaker verification [C]// Proceedings of the 2014 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. Piscataway, NJ: IEEE, 2015: 35-45.
[5] 張利鵬,曹犟,徐明星.防止假冒者闖入說(shuō)話人識(shí)別系統(tǒng)[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,48(S1):699-703.(ZHANG L P, CAO J, XU M X. Prevention of impostors entering speaker recognition systems [J]. Journal of Tsinghua University (Science and Technology), 2008, 48(S1): 699-703.)
[6] 王志鋒,賀前華,張雪源,等.基于信道模式噪聲的錄音回放攻擊檢測(cè)[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,39(10):7-12.(WANG Z F, HE Q H, ZHANG X Y, et al. Channel pattern noise based playback detection algorithm speaker recognition [J]. Journal of South China University of Technology (Natural Science Edition), 2011, 39(10): 7-12.)
[7] WANG Z F, WEI G, HE Q H. Channel pattern noise based playback attack detection algorithm for speaker recognition [C]// Processing of the 2011 International Conference on Machine Learning and Cybernetics. Piscataway, NJ: IEEE, 2011: 1708-1713.
[8] VILLABA J, LLEIDA E. Detecting replay attacks from far-field recordings on speaker verification systems [C]// BioID 2011: Proceedings of the 2011 European Workshop on Biometrics and Identity Management. Berlin: Springer, 2011: 274-285.
[9] VILLABA J, LLEIDA E. Preventing replay attacks on speaker verification systems [C]// Processing of the 2011 IEEE International Carnahan Conference on Security Technology. Piscataway, NJ: IEEE, 2011: 1-8.
[10] CHEN Y N, WANG R D, YAN D Q, et al. Voice playback detection based on long-window scale-factors [J]. International Journal of Security and Its Application, 2016, 10(12): 299-310.
[11] LIN X, LIU J, KANG X. Audio recapture detection with convolutional neural networks [J]. IEEE Transactions on Multimedia, 2016, 18(8): 1480-1487.
[12] 王天慶,李愛(ài)軍.連續(xù)漢語(yǔ)語(yǔ)音識(shí)別語(yǔ)料庫(kù)的設(shè)計(jì)[C]//第六屆全國(guó)現(xiàn)代語(yǔ)音學(xué)學(xué)術(shù)會(huì)議.天津:天津大學(xué)出版社2004:544-547.(WANG T Q, LI A J. The design of the continuous Chinese speech recognition corpus [C]// Proceedings of the Sixth National Conference on Modern Phonetics Learning. Tianjin: Tianjin University Press, 2004: 544-547.)
This work is partially supported by the National Natural Science Foundation of China (61672302, 61300055), the Natural Science Foundation of Zhejiang Province (LZ15F020002, LY17F020010), the Natural Science Foundation of Ningbo (2017A610123),the Scientific Research Foundation of Ningbo University (XKXL1509, XKXL1503),the K.C. Wong Magna Fund in Ningbo University.
LICan, born in 1992, M. S. candidate. Her research interests include multi-media information security.
WANGRangding, born in 1962, Ph. D., professor. His research interests include multi-media information security, digital forensics.
YANDiqun, born in 1979,Ph. D., associate professor. His research interests include multi-media information security, digital forensics.