李璨,王讓定,嚴(yán)迪群,陳亞楠
(寧波大學(xué)信息科學(xué)與工程學(xué)院,浙江 寧波 315211)
基于相位譜的翻錄語(yǔ)音攻擊檢測(cè)算法*
李璨,王讓定,嚴(yán)迪群,陳亞楠
(寧波大學(xué)信息科學(xué)與工程學(xué)院,浙江 寧波 315211)
因與原始語(yǔ)音具有高度相似性,經(jīng)高保真設(shè)備回放的翻錄語(yǔ)音常被不法分子用于對(duì)說話人認(rèn)證(ASV)系統(tǒng)進(jìn)行攻擊,以達(dá)到非法認(rèn)證的目的。為提高系統(tǒng)抵抗翻錄語(yǔ)音攻擊的頑健性,通過研究原始語(yǔ)音與翻錄語(yǔ)音產(chǎn)生的實(shí)際過程,發(fā)現(xiàn)兩者在頻率域相位上有明顯差異,并在此基礎(chǔ)上提出了一種基于相位譜的翻錄語(yǔ)音檢測(cè)方法。分析討論了FFT和不同偷錄、回放設(shè)備對(duì)翻錄語(yǔ)音檢測(cè)率的影響。實(shí)驗(yàn)結(jié)果表明,該方法能夠準(zhǔn)確地判斷待測(cè)語(yǔ)音是否為翻錄語(yǔ)音,其檢測(cè)率達(dá)到了99.04%。并且,將該算法加載到說話人識(shí)別系統(tǒng)中,使系統(tǒng)的等錯(cuò)誤概率(EER)降低了約22%,有效提高了系統(tǒng)抵抗翻錄語(yǔ)音攻擊的性能。
說話人認(rèn)證系統(tǒng);翻錄語(yǔ)音檢測(cè);相位譜
在信息時(shí)代,錄音設(shè)備(如錄音筆、智能手機(jī)等)日趨低價(jià)和高保真,回放設(shè)備也越來越精準(zhǔn),為錄音造假提供了可能。翻錄語(yǔ)音經(jīng)錄音設(shè)備偷錄、回放設(shè)備回放,與原始語(yǔ)音難辨真假,一些說話人認(rèn)證系統(tǒng)也無法辨別。而且翻錄語(yǔ)音因偷錄設(shè)備體積小、易偷錄、成功率高等優(yōu)勢(shì),已成為攻擊語(yǔ)音認(rèn)證系統(tǒng)中最易實(shí)施的方法。因此,對(duì)翻錄語(yǔ)音檢測(cè)十分迫切且具有現(xiàn)實(shí)意義。
近年來,國(guó)內(nèi)外研究學(xué)者對(duì)翻錄語(yǔ)音檢測(cè)展開研究,并取得了一定的研究成果。其中檢測(cè)算法主要分為以下兩類:一是基于語(yǔ)音產(chǎn)生隨機(jī)性的檢測(cè)算法。Shang W等人[1,2]根據(jù)語(yǔ)音的隨機(jī)性,提出了一種基于Peak map特性的錄音回放檢測(cè)算法,該算法通過計(jì)算原始語(yǔ)音與翻錄語(yǔ)音 Peak map特性的相似度,判斷待測(cè)語(yǔ)音是否為翻錄語(yǔ)音。若相似度大于設(shè)定的閾值,判定為翻錄語(yǔ)音;反之,判定為原始語(yǔ)音。在此基礎(chǔ)上,Jakub G等人[3]對(duì)該算法進(jìn)行了改進(jìn),在Peak map特性中加入了各頻率點(diǎn)的位置關(guān)系,Wu Z等人[4]加入光譜峰作為檢測(cè)特征,但該算法只能針對(duì)文本相關(guān)的識(shí)別系統(tǒng),且只針對(duì)一種偷錄設(shè)備,存在較大的局限性。二是基于語(yǔ)音信道的檢測(cè)算法。張利鵬等人[5]根據(jù)信道模式特征,用語(yǔ)音數(shù)據(jù)的靜音段對(duì)信道建模,檢測(cè)待測(cè)語(yǔ)音與訓(xùn)練語(yǔ)音的信道是否相同,從而判斷是否為回放攻擊。王志鋒等人[6,7]根據(jù)原始語(yǔ)音與翻錄語(yǔ)音產(chǎn)生的信道不同,提取信道模式噪聲,利用SVM(support vector machine,支持向量機(jī))得到了很好的分類結(jié)果。Villalba等人[8,9]依據(jù)遠(yuǎn)距離的錄音會(huì)受到噪聲和混響的影響,提出了針對(duì)遠(yuǎn)距離偷錄語(yǔ)音的檢測(cè)方法。Chen Y N 等人[10]根據(jù)設(shè)備信道對(duì)語(yǔ)音編碼過程的影響,提出基于長(zhǎng)窗比例因子的回放語(yǔ)音檢測(cè)算法。但該類方法提取的信道模式噪聲并非準(zhǔn)確,且錄制語(yǔ)音的設(shè)備過于單一,且未對(duì)多種不同的偷錄設(shè)備及回放設(shè)備進(jìn)行分析與研究。
伴隨著信息化的快速發(fā)展,信息安全形勢(shì)愈加嚴(yán)峻[11,12]。然而,目前針對(duì)多種不同偷錄設(shè)備與回放設(shè)備的翻錄語(yǔ)音檢測(cè)的研究關(guān)注較少。在現(xiàn)實(shí)生活中,各種高質(zhì)量低價(jià)格的高保真錄音設(shè)備隨處可見,如錄音筆及各種智能手機(jī)。這類偷錄設(shè)備攜帶便利且不易察覺,且獲得的翻錄語(yǔ)音與原始語(yǔ)音相似性較高,因此這種錄音設(shè)備是目前較為主流的偷錄設(shè)備。同時(shí),不同的回放設(shè)備對(duì)翻錄語(yǔ)音的產(chǎn)生也有較大的影響。但是,由于偷錄設(shè)備和回放設(shè)備種類繁多,不同的錄音設(shè)備中傳感器和信號(hào)采集電路存在差異,產(chǎn)生不同的設(shè)備信息。這無疑增加了對(duì)不同錄音設(shè)備的翻錄語(yǔ)音攻擊檢測(cè)的難度。
本文通過分析研究原始語(yǔ)音與翻錄語(yǔ)音產(chǎn)生的實(shí)際過程,發(fā)現(xiàn)翻錄語(yǔ)音經(jīng)歷了一次偷錄與回放過程后,其相位會(huì)發(fā)生不同程度的變化,根據(jù)相位譜的不同,提出了一種基于相位譜的翻錄語(yǔ)音檢測(cè)算法。為提高算法的實(shí)用性,彌補(bǔ)現(xiàn)有算法涉及錄制設(shè)備單一的問題,本文討論了不同偷錄設(shè)備和回放設(shè)備對(duì)檢測(cè)率的影響,并對(duì)影響程度作了分析。實(shí)驗(yàn)結(jié)果表明,將本文檢測(cè)方法加載到目前主流的GMM-UBM和i-vector說話人識(shí)別系統(tǒng)中后,系統(tǒng)抵抗翻錄攻擊的性能得到了極大的提高。
原始語(yǔ)音和翻錄語(yǔ)音產(chǎn)生的實(shí)際過程如圖 1所示。從說話人處直接得到的語(yǔ)音本文稱為原始語(yǔ)音,也稱為合法語(yǔ)音。將說話人語(yǔ)音用偷錄設(shè)備進(jìn)行偷錄,回放設(shè)備進(jìn)行回放得到的語(yǔ)音稱為翻錄語(yǔ)音。
由圖1可知,翻錄語(yǔ)音比原始語(yǔ)音多經(jīng)歷了一次高保真音響系統(tǒng)。高保真音響系統(tǒng)原汁原味地還原了原始語(yǔ)音,使得原始語(yǔ)音與翻錄語(yǔ)音具有高相似度,但該系統(tǒng)不可避免地對(duì)語(yǔ)音信號(hào)進(jìn)行電平調(diào)整、A/D轉(zhuǎn)換、編解碼等一系列的操作,使得翻錄語(yǔ)音與原始語(yǔ)音還是存在著一定的差異。
圖1 原始語(yǔ)音和翻錄語(yǔ)音產(chǎn)生的實(shí)際過程
原始語(yǔ)音和翻錄語(yǔ)音的波形如圖2所示,其中圖2(a)是一段經(jīng)Aigo R6620錄音筆原始錄制的語(yǔ)音信號(hào)的波形圖,該語(yǔ)音信號(hào)的具體內(nèi)容為普通話朗讀的“開窗 關(guān)燈 亮度佳 播放音樂”。圖2(b)、圖2(c)、圖2(d)是對(duì)應(yīng)的翻錄語(yǔ)音信號(hào)的波形,翻錄過程中的偷錄設(shè)備分別為 iPhone6、Mi4和Sony PX440,回放設(shè)備則都選擇的是 Huawei AM08。從圖2可以看出,翻錄語(yǔ)音信號(hào)較原始語(yǔ)音還是產(chǎn)生了一些失真,只是針對(duì)不同的翻錄設(shè)備,失真的大小略有區(qū)別。例如,在圖2所示的3款偷錄設(shè)備中,iPhone6對(duì)應(yīng)的語(yǔ)音信號(hào)失真最小,Sony PX440對(duì)應(yīng)的語(yǔ)音信號(hào)失真最大。
圖2 原始語(yǔ)音和翻錄語(yǔ)音的波形(Huawei AM08)
圖3、圖4的波形分別與圖2一一對(duì)應(yīng),其回放設(shè)備分別為 Philips DTM3115和 Yamaha TSX-140。由圖2、圖3、圖4可以看出,無論是偷錄還是回放設(shè)備,對(duì)翻錄語(yǔ)音都有一定的影響,但對(duì)翻錄語(yǔ)音有何影響且影響程度如何,需要進(jìn)一步探索。同時(shí),在時(shí)域上很難區(qū)分原始語(yǔ)音與翻錄語(yǔ)音,但翻錄語(yǔ)音經(jīng)過高保真系統(tǒng)的電平調(diào)整、A/D轉(zhuǎn)換、編解碼等一系列的操作,該系統(tǒng)將對(duì)不同頻率信號(hào)相位產(chǎn)生超前或者滯后的影響,會(huì)使得翻錄語(yǔ)音的相位產(chǎn)生較大程度的失真。
相位譜檢測(cè)算法主要由語(yǔ)音預(yù)處理、相位譜特征提取、特征選擇、分類識(shí)別4個(gè)部分組成。在特征選擇上,本文將相位統(tǒng)計(jì)平均作為檢測(cè)特征,并運(yùn)用 SVM-RFE算法進(jìn)行特征篩選,采用LIBSVM分類器進(jìn)行分類識(shí)別。為驗(yàn)證該算法的有效性,本文將該檢測(cè)算法加載到了說話人識(shí)別系統(tǒng)中,并對(duì)該系統(tǒng)防御翻錄語(yǔ)音的攻擊能力進(jìn)行了檢測(cè)。
圖3 原始語(yǔ)音和翻錄語(yǔ)音的波形(Philips DTM3115)
圖4 原始語(yǔ)音和翻錄語(yǔ)音的波形(Yamaha TSX-140)
3.1 特征提取
相位信息對(duì)感知有著不可忽視的作用,相位譜反映信號(hào)方向隨頻率變化的規(guī)律,含有大量的信息[13]。本文算法首先根據(jù)待測(cè)語(yǔ)音提取相應(yīng)的相位。設(shè)待檢測(cè)語(yǔ)音信號(hào)為x,將語(yǔ)音信號(hào)分幀處理后,對(duì)其進(jìn)行FFT,得到:
其中,k=0,1,2,…, N?1; i=1,2,…,S,S表示總幀數(shù)。
對(duì)于語(yǔ)音信號(hào)第i幀,求其相位 φi( k):
為表征相位譜的變化程度,本文選取均值統(tǒng)計(jì)特性。對(duì)于第i幀第j頻率點(diǎn)相位 φi,j(k),求其幅值:
然后求其第j頻率點(diǎn)相位的統(tǒng)計(jì)平均 ?j(k):
最后,對(duì) ?j(k)進(jìn)行歸一化處理,得到語(yǔ)音信號(hào)相位譜特征。初步分析可知,相較于原始語(yǔ)音,翻錄語(yǔ)音經(jīng)歷了一次高保真系統(tǒng),該系統(tǒng)會(huì)對(duì)不同頻率信號(hào)相位產(chǎn)生超前或滯后的影響。另外,受錄音設(shè)備的影響,語(yǔ)音在翻錄過程中將會(huì)引入一定的設(shè)備噪聲,這種噪聲是錄音設(shè)備所固有的,會(huì)使語(yǔ)音的相位譜產(chǎn)生明顯的失真。
圖5、圖6、圖7分別是3種不同的回放和偷錄設(shè)備的原始語(yǔ)音與翻錄語(yǔ)音的相位譜特征圖。圖中FFT采樣點(diǎn)數(shù)N為1 024,根據(jù)實(shí)序列離散傅里葉變換的共軛對(duì)稱性,本文選取前512個(gè)值。其中圖 5(a)、圖 6(a)、圖 7(a)表示一段由Aigo R6620錄音筆錄制的語(yǔ)音內(nèi)容為“開窗 關(guān)燈亮度佳 播放音樂”的原始語(yǔ)音的相位譜,圖5(b)、圖5(c)、圖5(d)、圖6(b)、圖6(c)、圖6(d)、圖7(b)、圖7(c)、圖7(d)分別是偷錄設(shè)備為iPhone6、Mi4和Sony PX440,回放設(shè)備為Huawei AM08、Philips DTM3115和Yamaha TSX-140的翻錄語(yǔ)音相位譜。
圖5 原始語(yǔ)音與翻錄語(yǔ)音相位譜特征(Huawei AM08)
圖6 原始語(yǔ)音與翻錄語(yǔ)音相位譜特征(Philips DTM3115)
圖7 原始語(yǔ)音與翻錄語(yǔ)音相位譜特征(Yamaha TSX-140)
由于偷錄設(shè)備和回放設(shè)備均是翻錄過程的重要設(shè)備,它們均會(huì)在翻錄語(yǔ)音中留下“痕跡”。當(dāng)回放設(shè)備相同時(shí),圖5、圖6、圖7中的(a)與(b)、(c)、(d)在高頻區(qū)有明顯的不同,(b)、(c)、(d)在高頻區(qū)相似度較高。當(dāng)偷錄設(shè)備相同時(shí),不同的回放設(shè)備其相位譜區(qū)分較為明顯。但是總體來看,針對(duì)不同的偷錄設(shè)備和回放設(shè)備的翻錄語(yǔ)音,其相位信息與原始語(yǔ)音具有較大的失真。為了實(shí)現(xiàn)更好的性能測(cè)試,提高運(yùn)算效率,選擇有效的特征維數(shù),本文采用SVM-RFE算法進(jìn)行特征選擇。
SVM-RFE算法[14]的輸出結(jié)果是按照特征的重要性對(duì)特征進(jìn)行排序的列表。本文將上述所提取的相位特征進(jìn)行特征篩選。這里使用的 FFT采樣點(diǎn)數(shù)為1 024,樣本數(shù)目為14 000(原始語(yǔ)音1 400,翻錄語(yǔ)音12 600)。其中,RANK為最終的排列等級(jí),AVG_RANK為5次交叉驗(yàn)證RANK結(jié)果的平均值,特征索引N為前512維特征。SVM-RFE對(duì)特征排序的結(jié)果(前20列)見表1。
表1 SVM-RFE特征排序的結(jié)果
由表1可知,在前20列特征重要性的排序中,特征索引N為509的特征翻錄語(yǔ)音失真最大。整體來看,特征索引N較大的值所占的比例較高,即翻錄語(yǔ)音較原始語(yǔ)音在高頻區(qū)失真較為明顯。因此,為提高檢測(cè)效率,選擇RANK≥10的10維特征作為最終的有效特征。
3.2 翻錄語(yǔ)音攻擊檢測(cè)
為驗(yàn)證基于相位譜的翻錄語(yǔ)音檢測(cè)算法的有效性,本文將該算法加載到了說話人識(shí)別系統(tǒng)中,如圖8所示。
圖8 防翻錄語(yǔ)音攻擊的識(shí)別系統(tǒng)流程
具體的操作步驟如下:語(yǔ)音經(jīng)采集設(shè)備采集,同時(shí)輸入說話人識(shí)別系統(tǒng)和翻錄語(yǔ)音檢測(cè)模塊中;在翻錄語(yǔ)音檢測(cè)模塊,提取語(yǔ)音信號(hào)的相位譜特征,對(duì)語(yǔ)音進(jìn)行分類識(shí)別。若輸入的語(yǔ)音為翻錄語(yǔ)音,則判決1為0;否則,判決1為1;說話人識(shí)別系統(tǒng)對(duì)輸入語(yǔ)音進(jìn)行判決,若輸入語(yǔ)音為說話人語(yǔ)音,則判決2為1;否則,判決2為0;在判決模塊,結(jié)合判決1和判決2的結(jié)果,按表2規(guī)則對(duì)輸入語(yǔ)音進(jìn)行判斷,輸出最終結(jié)果。
表2 判決規(guī)則
為了驗(yàn)證本文方法的有效性,本文構(gòu)建了一個(gè)符合研究目的的語(yǔ)音數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)的具體設(shè)置如下:語(yǔ)料庫(kù)來源于 863語(yǔ)料庫(kù)[15];人員分布為:18男14女;設(shè)備選取主要涉及語(yǔ)音采集設(shè)備、偷錄設(shè)備、回放設(shè)備。設(shè)備的詳細(xì)信息見表3。
實(shí)驗(yàn)庫(kù)的構(gòu)建環(huán)境為安靜房間,閱讀內(nèi)容為語(yǔ)料庫(kù)內(nèi)容,參與者依據(jù)自身朗讀習(xí)慣用標(biāo)準(zhǔn)普通話進(jìn)行錄音,并使用采集設(shè)備進(jìn)行語(yǔ)音采集,采集設(shè)備距參與者大約20 cm,本文將采集設(shè)備此次采集到的語(yǔ)音稱為原始語(yǔ)音。在參與者閱讀以上語(yǔ)料的同時(shí),將偷錄設(shè)備同時(shí)打開到正常錄制功能下,錄制參與者的語(yǔ)音內(nèi)容,根據(jù)實(shí)際情況,將偷錄設(shè)備距離說話人大約70 cm。在同樣的環(huán)境下,將偷錄設(shè)備采集到的語(yǔ)音經(jīng)音響回放,并使用采集設(shè)備錄制該回放語(yǔ)音?;胤乓繇懢嚯x采集設(shè)備20 cm左右。將此次采集設(shè)備采集到的語(yǔ)音稱為翻錄語(yǔ)音。實(shí)驗(yàn)樣本為14 000個(gè)(原始語(yǔ)音1 400個(gè),翻錄語(yǔ)音12 600個(gè))。樣本詳情見表4。
表3 設(shè)備信息
表4 原始語(yǔ)音和翻錄語(yǔ)音樣本詳情
實(shí)驗(yàn)中使用 LIBSVM,它是一種監(jiān)督是學(xué)習(xí)方法,廣泛地應(yīng)用于統(tǒng)計(jì)分類以及回歸分析。分類過程如下:先根據(jù)第3.1節(jié)進(jìn)行特征提取并使用LIBSVM 進(jìn)行訓(xùn)練得到模型,將待測(cè)語(yǔ)音在LIBSVM模型上進(jìn)行測(cè)試并給出最終判斷結(jié)果。本文將根據(jù)錄音過程中的影響變量,分別分析其對(duì)檢測(cè)翻錄語(yǔ)音的影響。
5.1 FFT變換點(diǎn)數(shù)的影響
相位譜反映信號(hào)方向隨頻率變化的規(guī)律,含有大量的信息。不同的FFT采樣點(diǎn)數(shù)對(duì)相位信息產(chǎn)生較大的影響。隨著采樣點(diǎn)數(shù)的增加,語(yǔ)音相位譜所包含的信息越多,翻錄語(yǔ)音經(jīng)過高保真系統(tǒng)后,其相位失真越來越明顯。為了尋找最佳的檢測(cè)效果的采樣點(diǎn)數(shù),討論了基于FFT采樣點(diǎn)數(shù)為128、256、512、1 024時(shí)的翻錄語(yǔ)音檢測(cè)效果。實(shí)驗(yàn)采樣LIBSVM分類器在weka平臺(tái)上進(jìn)行試驗(yàn)。實(shí)驗(yàn)樣本為原始語(yǔ)音1 400個(gè),翻錄語(yǔ)音12 600個(gè)。檢測(cè)效果見表5,其中包括真正類率(true positive rate,TPR)、負(fù)正類率(false positive rate,F(xiàn)PR)、準(zhǔn)確度(accuracy,ACC)等。
表5 翻錄語(yǔ)音檢測(cè)率
由實(shí)驗(yàn)結(jié)果可以看出,當(dāng)FFT采樣點(diǎn)數(shù)N為1 024時(shí),對(duì)翻錄語(yǔ)音有較好的檢測(cè)效果,其檢測(cè)率達(dá)到99.04%。隨著FFT采樣點(diǎn)數(shù)的增大,包含的語(yǔ)音相位信息越多,越能較好地反映語(yǔ)音信號(hào)的本質(zhì)特征。綜合考慮,本文選取1 024作為最佳檢測(cè)率時(shí)的FFT采樣點(diǎn)數(shù)。
5.2 不同錄音設(shè)備的影響
由第5.1節(jié)可知,當(dāng)FFT采樣點(diǎn)數(shù)為1 024時(shí),對(duì)翻錄語(yǔ)音檢測(cè)效果最優(yōu)。但不同的偷錄設(shè)備與回放設(shè)備所含有的固有設(shè)備信息不同,它對(duì)相位譜的影響也就不同。因此,本節(jié)通過實(shí)驗(yàn)揭示不同偷錄設(shè)備和不同回放設(shè)備對(duì)翻錄語(yǔ)音檢測(cè)率的影響。檢測(cè)結(jié)果見表6。
表6 不同偷錄設(shè)備與回放設(shè)備的翻錄語(yǔ)音檢測(cè)
由表 6可以看出,當(dāng)回放設(shè)備為 Huawei AM08時(shí),來源于3種不同偷錄設(shè)備的翻錄語(yǔ)音均能被 100%識(shí)別;當(dāng)回放設(shè)備為 Yamaha TSX-140時(shí),偷錄設(shè)備為Sony PX440和iPhone6的翻錄語(yǔ)音檢測(cè)率為100%,偷錄設(shè)備為Mi4的翻錄語(yǔ)音檢測(cè)率達(dá)到了 99.71%;當(dāng)回放設(shè)備為Philips DTM3115時(shí),識(shí)別準(zhǔn)確率雖不及以上兩種,但其準(zhǔn)確率也達(dá)到了 99.7%以上。實(shí)驗(yàn)結(jié)果表明:本文檢測(cè)算法能夠很好地檢測(cè)翻錄語(yǔ)音與原始語(yǔ)音,且對(duì)偷錄設(shè)備與回放設(shè)備有較好的頑健性。
5.3 加載翻錄語(yǔ)音檢測(cè)模塊后的識(shí)別系統(tǒng)
為更好地檢驗(yàn)翻錄語(yǔ)音對(duì)說話人識(shí)別系統(tǒng)的攻擊情況,本文分別在GMM-UBM和i-vector說話人識(shí)別系統(tǒng)上進(jìn)行了實(shí)驗(yàn)。在實(shí)驗(yàn)中,提取13維 MFCC基本特征,與一階、二階差分構(gòu)成 39維特征參數(shù)。翻錄語(yǔ)音檢測(cè)模塊使用FFT點(diǎn)數(shù)為1 024。實(shí)驗(yàn)中訓(xùn)練了4個(gè)用戶模型,在測(cè)試時(shí)用每個(gè)用戶的翻錄語(yǔ)音作為攻擊語(yǔ)音,其中每個(gè)用戶模型使用原始語(yǔ)音130個(gè)、翻錄語(yǔ)音150個(gè)。
科研工作者從20世紀(jì)50年代開始進(jìn)行說話人識(shí)別技術(shù)研究,至今取得了一定的進(jìn)展[16]。GMM-UBM和i-vector說話人識(shí)別系統(tǒng)是經(jīng)典和目前主流的兩個(gè)系統(tǒng)。GMM-UBM[17]主要利用UBM和少量的說話人數(shù)據(jù),通過自適應(yīng)算法得到目標(biāo)人模型,最后用測(cè)試數(shù)據(jù)分別與模型和UBM進(jìn)行打分比較;基于i-vector并進(jìn)行信道補(bǔ)償?shù)恼f話人識(shí)別系統(tǒng)[18]根據(jù) UBM 和 T子空間提取i-vector,建立GPLDA(Gaussian probabilistic linear discriminate analysis,高斯概率線性判別分析)模型及說話人模型,測(cè)試階段用測(cè)試語(yǔ)音對(duì)模型進(jìn)行打分比較,本實(shí)驗(yàn)打分方式采用對(duì)數(shù)似然比。
本實(shí)驗(yàn)分別在GMM-UBM和i-vector說話人識(shí)別系統(tǒng)上,測(cè)試來源不同的回放設(shè)備和偷錄設(shè)備的翻錄語(yǔ)音是否能夠攻擊成功,檢測(cè)結(jié)果如圖10(a)和圖10(b)所示。在GMM-UBM系統(tǒng)上,未加載翻錄語(yǔ)音檢測(cè)模塊的說話人識(shí)別系統(tǒng)的EER為46.33%,加載了翻錄語(yǔ)音檢測(cè)模塊后,該系統(tǒng)的EER降為6.48%,下降了約40%。在i-vector系統(tǒng)上,系統(tǒng)對(duì)翻錄語(yǔ)音的攻擊有一定的防御性,但并不能完全抵抗攻擊,該系統(tǒng)的EER為27.78%,當(dāng)加載了翻錄語(yǔ)音檢測(cè)模塊時(shí),系統(tǒng)EER降為5.56%,下降了約22%。該數(shù)據(jù)說明本檢測(cè)算法能夠有效地提高GMM-UBM和i-vector識(shí)別系統(tǒng)抵抗翻錄語(yǔ)音攻擊的能力。
5.4 對(duì)比實(shí)驗(yàn)
將本文算法與典型的3種算法在本文數(shù)據(jù)庫(kù)上進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果見表7。參考文獻(xiàn)[5]算法采用短時(shí)能量法提取靜音,利用譜減法進(jìn)行濾波,提取MFCC特征參數(shù)。參考文獻(xiàn)[7]方法采用高通濾波器進(jìn)行去噪,提取信道模式噪聲,并提取6個(gè)統(tǒng)計(jì)特征及6階Legendre多項(xiàng)式系數(shù)。參考文獻(xiàn)[10]中算法將語(yǔ)音信號(hào)進(jìn)行MP3編碼后,提取比例因子統(tǒng)計(jì)特征作為檢測(cè)特征。表7中,ACC表示準(zhǔn)確率,EER表示將檢測(cè)模塊加載到GMM-UBM、i-vector說話人識(shí)別系統(tǒng)時(shí),系統(tǒng)的等錯(cuò)誤概率。
圖10 加載翻錄語(yǔ)音檢測(cè)模塊前后的等錯(cuò)誤概率對(duì)比
表7 本文算法與參考文獻(xiàn)[5,7,10]算法檢測(cè)結(jié)果的對(duì)比
由表7可以看出,對(duì)于多種偷錄及回放設(shè)備的翻錄語(yǔ)音,本文算法優(yōu)于參考文獻(xiàn)[5,7,10]算法,識(shí)別率分別提高了約26%、約21%和約0.1%。解決了參考文獻(xiàn)[5,7]中設(shè)備過于單一的問題,更具實(shí)用性。另外,參考文獻(xiàn)[5,7,10]中算法使用特征維數(shù)分別為39維、12維和21維,本文算法共計(jì)10維特征,維數(shù)更低。
本文針對(duì)多種偷錄設(shè)備與回放設(shè)備的翻錄語(yǔ)音攻擊,提出了基于相位譜的翻錄語(yǔ)音檢測(cè)算法。并通過模擬實(shí)際翻錄語(yǔ)音攻擊的整個(gè)物理過程,建立了實(shí)驗(yàn)語(yǔ)音數(shù)據(jù)庫(kù)。本文確定了最佳檢測(cè)效果的FFT點(diǎn)數(shù),對(duì)來源不同錄音設(shè)備的翻錄語(yǔ)音進(jìn)行了檢測(cè),其檢測(cè)率達(dá)到了99.04%,在此基礎(chǔ)上,將該檢測(cè)算法模塊加載到說話人識(shí)別系統(tǒng)中,其抵抗翻錄語(yǔ)音攻擊的能力提升了約22%。在今后的研究中,將進(jìn)一步探究各種錄音設(shè)備及回放設(shè)備對(duì)語(yǔ)音的影響,并且在檢測(cè)方法上進(jìn)行創(chuàng)新和改進(jìn)。
[1]SHANG W, STEVENSON M. A playback attack detector for speaker verification systems[C]//2008 IEEE International Symposium on Communications Control and Signal Processing (ISCCSP), March 12-14, 2008, Bordeaux, France. New Jersey: IEEE Press, 2008:1144-1149.
[2]SHANG W, STEVENSON M. Score normalization in playback attack detection[C]//IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP) , March 14-19, 2008, Dallas, USA. New Jersey: IEEE Press, 2010:1678-1681.
[3]JAKUB G, MARCIN G, RAFAL S. Playback attack detection for text-dependent speaker verification over telephone channels [J]. Speech Communication, 2015(67):143-153.
[4]WU Z, GAO S, CLING E S, et al. A study on replay attack and anti-spoofing for text-dependent speaker verification[C]//IEEE 2014 Summit and Conference, Asia-Pacific Signal and Information Processing Association, December 9-12, 2014, Siem Reap, Cambodia. New Jersey: IEEE Press, 2014: 35-45.
[5]張利鵬, 曹犟, 徐明星. 防止假冒者闖入說話人識(shí)別系統(tǒng)[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2008, 48(S1): 699-703. ZHANG L P, CAO J, XU M X. Prevention of impostors entering speaker recognition systems[J]. Journal of Tsinghua university (Science and Technology ), 2008 , 48(S1): 699-703.
[6]王志鋒, 賀前華, 張雪源, 等. 基于模式噪聲的錄音回放攻擊檢測(cè)[J]. 華南理工大學(xué)學(xué)報(bào), 2011, 39(10): 7-12. WANG Z F, HE Q H, ZHANG X Y, et al. Channel pattern noise based playback detection algorithm speaker recognition[J]. Journal of South China University of Technology(Natural Science Edition), 2011, 39(10): 7-12.
[7]WANG Z F, HE Q H, ZHANG X Y, et al. Channel pattern noise based playback detection algorithm speaker recognition [C]// IEEE International Conference on Machine Learning and Cybernetics(ICMLC), July 10-13, 2011, Guilin, China. New Jersey: IEEE Press, 2011: 1708-1713.
[8]VILLABA J, LLEIDA E. Detecting replay attacks from far-field recordings on speaker verification systems[C]//COST 2011 European Conference on Biometrics and ID Management, March 8-10, 2011, Brandenburg, Germany. New York: ACM Press, 2011: 274-285.
[9]VILLABA J, LLEIDA E. Preventing replay attacks on speaker verification systems[C]//IEEE International Carnahan Conference on Security Technology (ICCST), October 18-21, 2011, San Francisco, USA. New Jersey: IEEE Press, 2011: 1-8.
[10]CHEN Y N, WANG R D, YAN D Q, et al. Voice playback detection based on long-window scale-factors[J]. International Journal of Security and Its Application, 2016, 10(12): 299-310.
[11]鄭志彬.信息網(wǎng)絡(luò)安全威脅及技術(shù)發(fā)展趨勢(shì)[J].電信科學(xué), 2009, 25(2): 28-34. ZHENG Z B. Overview of mobile communication services security[J].Telecommunications Science, 2009, 25(2): 28-34.
[12]王帥, 汪來富, 金華敏, 等. 網(wǎng)絡(luò)安全分析中的大數(shù)據(jù)技術(shù)應(yīng)用[J]. 電信科學(xué), 2015, 31(7): 145-150. WANG S, WANG L F, JIN H M, et al. Big data application in network security analysis [J]. Telecommunications Science, 2015, 31(7): 145-150.
[13]OPPENHERIM A V, LIM J S. The important of phase in signals[J]. Processing of the IEEE, 1981, 69(5): 529-541.
[14]DUAN K B, RAJAPAKSE J C, WANG H Y, et al. Multiple SVM-RFE for gene selection in cancer classification with expression data[J]. IEEE Transactions on Nano Bioscience, 2005, 4(3): 228-234.
[15]王天慶, 李愛軍. 連續(xù)漢語(yǔ)語(yǔ)音識(shí)別語(yǔ)料庫(kù)的設(shè)計(jì)[C]// 第六屆全國(guó)現(xiàn)代語(yǔ)音學(xué)學(xué)術(shù)會(huì)議論文集(下), 2003年 10月18-20日, 天津, 中國(guó). 天津: 天津人民出版社, 2003. WANG T Q, LI A J. The design of the continuous Chinese speech recognition corpus[C]//The sixth national conference on modern phonetics learning, October 18-20, 2003, Tianjin, China, Tianjin: Tianjin Remin Chubanshe, 2003.
[16]楊震, 徐敏捷, 劉璋峰, 等. 語(yǔ)音大數(shù)據(jù)信息處理架構(gòu)及關(guān)鍵技術(shù)研究[J]. 電信科學(xué), 2013, 29(11): 1-5. YANG Z, XU M J, LIU Z F, et al. Study of audio frequency big data processing architecture and key technology[J]. Telecom munications Science, 2013, 29(11): 1-5.
[17]CHAKROBORTY S, ROY A, SAHA G. Improved closed set text-independent speaker identification by combining MFCC with evidence from flipped filter banks[J]. International Journal of Signal Processing, 2007, 4(2): 114-122.
[18]KANAGASUNDARAM A, DEANA D, SRIDHARAN S, et al. I-vector based speaker recognition using advanced channel compensation techniques[J]. Computer Speech and Language, 2014, 28(1): 121-140.
Recapture voice replay detection based on phase spectrum
LI Can, WANG Rangding, YAN Diqun, CHEN Yanan
College of Information Science and Engineering, Ningbo University, Ningbo 315211, China
Due to a high similarity between the recaptured voice recorded by high-fidelity ripping equipment and the original voice, the automatic speaker verification(ASV)system used to be attacked illegally by the recaptured voice. In order to improve the ability of resisting the attack, a recaptured voice detection method was proposed based on the difference of phase spectrum between original and recaptured voices for the ASV system. In addition, the effects of different recording and replay devices, the FFT were discussed. Experimental results show that the proposed method can accurately recognize the recording voice, of which detection rate is 99.04%。Meanwhile, the equal error rate (EER) of the ASV system has dropped about 22% with this method being integrated, which indicates that the system’s ability of resisting playback attack is enhanced.
ASV system, recaptured voice detection, phase spectrum
s: The National Natural Science Foundation of China (No. 61672302, No.61300055), Natural Science Foundation of Zhejiang Province of China (No.LZ15F020010, No.Y17F020051), The Scientific Research Foundation of Ningbo University (No.XKXL1405, No.XKXL1420, No.XKXL1509, No. XKXL1503), K.C. Wong Magna Fund in Ningbo University
TP391
A
10.11959/j.issn.1000?0801.2017126
李璨(1992?),女,寧波大學(xué)信息科學(xué)與工程學(xué)院碩士生,主要研究方向?yàn)槎嗝襟w通信與信息安全等。
王讓定(1962?),男,博士,寧波大學(xué)高等技術(shù)研究院教授、博士生導(dǎo)師,主要研究方向?yàn)槎嗝襟w通信與取證、信息隱藏與隱寫分析、智能抄表及傳感網(wǎng)絡(luò)技術(shù)等。
嚴(yán)迪群(1979?),男,博士,寧波大學(xué)信息科學(xué)與工程學(xué)院副教授、碩士生導(dǎo)師,主要研究方向?yàn)槎嗝襟w通信、信息安全、基于深度學(xué)習(xí)的數(shù)字語(yǔ)音取證等。
陳亞楠(1990?),女,寧波大學(xué)信息科學(xué)與工程學(xué)院碩士生,主要研究方向?yàn)槎嗝襟w通信與信息安全等。
2017?01?23;
2017?03?20
王讓定,wangrangding@nbu.edu.cn
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61672302,No.61300055);浙江省自然科學(xué)基金資助項(xiàng)目(No.LZ15F020010,No.Y17F020051);寧波大學(xué)科研基金資助項(xiàng)目(No.XKXL1405,No.XKXL1420,No.XKXL1509,No.XKXL1503);寧波大學(xué)王寬誠(chéng)幸?;鹳Y助項(xiàng)目