李 璨,王讓定,嚴迪群
(寧波大學 信息科學與工程學院,浙江 寧波 315211)(*通信作者電子郵箱wangrangding@nbu.edu.cn)
隨著互聯(lián)網的不斷發(fā)展和便攜式智能終端的快速普及,人們能夠更加方便、快捷地借助各種數(shù)字媒體(圖像、音頻、視頻)傳遞信息。與此同時,隨著回放設備、高保真錄音設備的普及,合法用戶的密語在請求進入識別系統(tǒng)時極易被攻擊者偷錄成功。翻錄語音經高保真錄音設備偷錄、回放設備回放,與原始語音具有較高的相似度,一些說話人認證系統(tǒng)也無法辨別,危害了合法用戶的權益。而且翻錄語音因偷錄設備體積小、易偷錄、成功率高等優(yōu)勢,已成為攻擊語音認證系統(tǒng)中最易實施的方法,因此,對翻錄語音檢測受到業(yè)內的廣泛重視。
近年來,對翻錄語音檢測研究取得了一定的成果。Shang等[1-2]根據(jù)語音產生的隨機性,對比了原始語音與翻錄語音Peak map的不同,提出了一種基于Peak map相似度的錄音回放檢測算法。若相似度大于設定的閾值,判定為翻錄語音;反之,判定為原始語音。在此基礎上,Jakub等[3]對該算法進行了改進,在Peak map特性中加入了各頻率點的位置關系;Wu等[4]將音頻檢索中的譜位圖峰值特征應用于翻錄語音檢測,依據(jù)待認證語音與系統(tǒng)保存的語音在該特征上的相似度來判斷當前語音是否為合法語音。以上方法只能針對文本相關的識別系統(tǒng),無法適用于文本無關的翻錄語音檢測,具有較大的局限性。張利鵬等[5]根據(jù)信道模式特征,利用翻錄語音信道與原始語音信道之間的差異,提出了一種基于靜音段的梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient, MFCC)的翻錄語音檢測的方法,該算法用語音數(shù)據(jù)的靜音段對信道建模,檢測待測語音與訓練語音的信道是否相同,從而判斷是否為回放攻擊。王志鋒等[6-7]根據(jù)原始語音與翻錄語音產生的信道不同,提取信道模式噪聲,并利用支持向量機(Support Vector Machine, SVM)得到了很好的分類結果。Villalba等[8-9]依據(jù)遠距離的錄音會受到噪聲和混響的影響,提出了針對遠距離偷錄語音的檢測方法。Chen等[10]根據(jù)設備信道對語音編碼過程的影響,提出了一種基于長窗比例因子的翻錄語音檢測算法,但該類方法提取的信道模式噪聲并非準確,且錄制語音的設備過于單一,且未對多種不同的偷錄設備及回放設備進行分析與研究。
目前針對翻錄語音檢測方面大部分工作都是針對一種偷錄設備及回放設備的翻錄語音,對多種錄音設備的翻錄語音檢測研究的關注較少。而在現(xiàn)實生活中,各種高保真錄音設備隨處可見,如錄音筆及各種智能手機。這類偷錄設備攜帶便利且不易察覺,且獲得的翻錄語音與原始語音相似性較高,因此這類錄音設備是目前較為主流的偷錄設備。深度學習本質上是構建含有多隱層的機器學習架構模型,通過大規(guī)模數(shù)據(jù)進行訓練,得到大量更具有代表性的特征信息,從而對樣本進行分類和預測,提高分類和預測的精度[11]。與人工設計的特征提取方法相比,利用深度學習模型得到的數(shù)據(jù)特征,揭示了大數(shù)據(jù)的豐富內在信息。卷積神經網絡(Convolutional Neural Network, CNN)能夠提取出大量數(shù)據(jù)樣本潛藏的特征信息,這使得卷積神經網絡在模式識別的各個領域得到了廣泛的應用。
本文通過對比原始語音與翻錄語音的語譜圖,并將其輸入到卷積神經網絡中,從而進行特征提取及分類。本文分析討論了不同的網絡參數(shù)與輸入特征對檢測結果的影響,搭建了適用于檢測翻錄語音的網絡框架,并對不同偷錄及回放設備的翻錄語音進行了交叉實驗。實驗結果表明,該方法可以很好地判斷待測語音是否為翻錄語音。
語譜圖中包含了大量的與語音的語句特性有關的信息,它綜合了頻譜圖和時域波形的特點,明顯地顯示出語音頻譜隨時間的變化情況。由于它通過二維圖像來反映所包含的語音中豐富的信息,被稱為“可視的語言”。相比原始語音,翻錄語音大多經歷了一次錄制和回放過程;而這些設備將不可避免地對語音信號進行再一次的采集及編解碼,這就造成翻錄語音將攜帶固有的屬性,這種屬性將不同于原始語音。為了更全面分析語音信號的時間、頻率的變化,本文將語譜圖作為CNN的輸入對象。
如圖1所示,其中圖1(a)是一段經Aigo R6620錄音筆原始錄制的語音信號的語譜圖,該語音信號的具體內容為普通話朗讀的“芝麻開門-我是土豪-千里共嬋娟”。圖1(b)~(d)是對應的翻錄語音信號的語譜圖,翻錄過程中的偷錄設備分別為Aigo R6620、iPhone6和SONY PX440,回放設備則選擇的是Huawei AM08。
圖2中的語譜圖分別與圖1一一對應,其回放設備為Philips DTM3115。由圖1和圖2可以看出,與圖1(a)的原始錄制語音相比,3個二次翻錄語音在某些固定的頻率帶上均出現(xiàn)了“截斷”現(xiàn)象,如在1 800~2 200 Hz、3 800~4 200 Hz的頻帶上,整個時間軸方向上信號的頻率幅度均出現(xiàn)了明顯的下降;另外,翻錄語音的頻率分量略大于原始語音。在回放設備為Philips DTM3115,偷錄設備為iPhone6和SONY PX440時的翻錄語音表現(xiàn)的最為明顯。經Aigo R6620二次采集得到的翻錄語音與原始語音相似度最高。
圖1 原始語音與翻錄語音語譜圖(Huawei AM08)
圖2 原始語音與翻錄語音語譜圖(Philips DTM3115)
總體來看,經過偷錄與回放的翻錄語音,其頻率值均略大于原始語音。這是因為翻錄語音在偷錄過程中經過電平調整、A/D轉換、編解碼等一系列的操作,引入了一定的設備噪聲及其他噪聲,回放讓這種噪聲更加明顯地顯現(xiàn)出來。
CNN是一種特殊的深層的神經網絡模型,具有自動提取特征、執(zhí)行分類的功能。卷積神經網絡已在音樂信息檢索、中值濾波檢測等方面有了很好的應用。CNN一般由一組或多組卷積層+池化層構成?;诖?,本文將構建一個網絡框架使之更有效地區(qū)分原始語音與翻錄語音之間的細微差異。首先提取原始語音與翻錄語音的語譜圖;然后將其輸入到CNN網絡框架中,使其自動進行特征提取;最后得到分類結果。文中采樣兩層卷積、一層池化的方式構成。圖3所示為CNN網絡框架。表1為網絡框架的參數(shù)設置。
圖3 CNN網絡框架
Tab. 1 Parameters setting of network architecture
卷積神經網絡通過卷積核對局部特征進行分析。在一個卷積層上,上一層的特征圖被可學習的卷積核進行卷積,然后通過激活函數(shù),輸出得到特征圖。一般來說,卷積層和激活函數(shù)的關系可表示為:
(1)
池化層的作用是對輸入層進行下采樣處理。如果有N個輸入圖,那么則會產生N個輸出層。池化層的每個特征圖唯一對應前一層的一個特征圖,各特征圖組合前一層對應特征圖大小相同但互不重疊的所有子區(qū)域,使得卷積神經網絡具有一定的空間不變性,從而實現(xiàn)一定程度的轉換和畸變不變。下采樣過程利用圖像局部相關性的原理,對圖像進行子抽樣,以減少數(shù)據(jù)處理量同時保留有用的信息。文中采用最大池化算法,即對固定窗長內的節(jié)點選取最大值進行輸出。對應的關系式為:
(2)
經過池化層得到的特征圖作為輸入進入全連接層,全連接層將池化層的各個輸出綜合起來,最后通過輸出層得到各個狀態(tài)的分類后驗概率。卷積神經網絡通過損失函數(shù)的計算推動分類。本文中使用的損失函數(shù)是SoftMax回歸函數(shù)。本文可以將其理解為一個多類分類器。
為了驗證本文方法的有效性,文中構建了一個語音數(shù)據(jù)庫。數(shù)據(jù)庫的具體設置如下:其語料來源于863語料庫[12];人員分布為:18男14女;設備選取主要涉及到:語音采集設備、偷錄設備、回放設備。設備的詳細信息如表2所示。
表2 設備信息
語音數(shù)據(jù)庫在安靜環(huán)境下錄制,錄音人員根據(jù)自身說話習慣閱讀語料庫內容,并使用采集設備進行語音采集,參與者距采集設備距離約為20 cm,本文將這個過程采集設備采集到的語音稱為原始語音。按照實際過程模擬偷錄過程,偷錄設備放置距錄音者70 cm處,在參與者閱讀以上語料的同時,將偷錄設備同時打開到正常錄制功能下,錄制參與者的語音內容。將偷錄設備采集到的語音經音響回放,并使用采集設備錄制該回放語音。回放音響距離采集設備20 cm左右。文中將此次采集設備采集到的語音稱為翻錄語音。實驗樣本為44 100個(原始語音6 300個,翻錄語音37 800個),每段語音為2 s。樣本詳情如表3所示。
表3 原始語音和翻錄語音樣本詳情
網絡通過卷積核對局部特征進行分析,通過池化層加強抽取出來的特征魯棒性,最后通過全連接層建立模型得到最終的分類結果。在這個過程中,卷積核對輸入特征進行分析并提取,對分類結果起著較大的影響。卷積核的參數(shù)設置共有兩個:核大小和核個數(shù)。
原則上,卷積核(濾波器)的個數(shù)為輸出特征圖的個數(shù),即若卷積核個數(shù)為N,則輸出為N張?zhí)卣鲌D。隨著卷積核個數(shù)的增加,輸出的特征圖也就越多,網絡表示特征空間就越大,學習能力也就越強,識別率也就越高。表4和表5分別給出了卷積核個數(shù)和核大小對檢測性能的影響。表中的ACC為檢測識別率(Accuracy),Loss為損失率,時間為每一次迭代所產生的大約時間。表4的實驗約束條件是保證網絡層數(shù)結構和其他因素不變的情況下,調整其兩層卷積核個數(shù);表5的實驗約束條件是在卷積核個數(shù)為32- 64、池化層為1×4、全連接層為256的情況下,調整改變其兩層卷積核的大小。實驗樣本為原始語音6 300個,翻錄語音6 300個。16- 32、32- 32、32- 64、64- 64分別表示第一層和第二層卷積核的個數(shù)的設置。
表4 卷積核數(shù)對檢測性能的影響
表5 卷積核大小對檢測性能的影響
實驗結果表明,隨著卷積核個數(shù)的增加,檢測性能越好。不同的卷積核從不同的角度提取不同的特征。若卷積核的個數(shù)較少,則不能充分提取到有用的信息;若卷積核個數(shù)較多,則運算時間會增加,但其識別率提高并不明顯。另外,隨著卷積核大小的逐漸細化,識別率有所提高,但上升幅度較弱,這也說明了卷積核的大小對檢測性能的影響較弱。綜合考慮,本文最終選擇的卷積核個數(shù)為32- 64、即第一層卷積核個數(shù)為32個,第二層卷積核個數(shù)為64個。卷積核大小為1×11- 2×6。
語音信號經過分幀、加窗、傅里葉變換,計算其能量譜密度得到語譜圖。不同的窗移將會產生不同的語音信號語譜圖,包含的語音信息也就不同。圖4為窗長設置為512點,傅里葉采樣點數(shù)為1 024,窗移為128與256點下的翻錄語音檢測。其中圖4(a)為檢測識別率曲線,圖4(b)為檢測的損失率。實驗樣本為原始語音6 300個,翻錄語音6 300個,70%用于訓練,其余用于測試。
在翻錄過程中,偷錄及回放設備種類繁多,不同的偷錄和回放設備將對檢測結果產生不同的影響,交叉實驗的目的就是為了更好地檢驗算法的適用性。在實驗中,本文以一種偷錄及回放設備得到的翻錄語音作為訓練語音,其余任意一種偷錄及回放設備得到的翻錄語音作為測試語音。原始語音6 300個,翻錄語音37 800個。其中,檢測結果用ACC(%)表示。實驗結果如表6所示。
由表6可以看出,當回放設備相同時,不同偷錄設備下的交叉可以得到較好的檢測率,其檢測率均能達到93%以上,其中,回放設備為Huawei AM08,偷錄設備為Aigo R6620時翻錄語音檢測率達到了99.28%。當不同回放設備,不同偷錄設備下交叉時,本文方法具有一定的檢測效果,但結果不及相同回放設備下不同偷錄設備的翻錄語音檢測。由此得出,相較于偷錄設備,回放設備對翻錄語音的產生影響較大。
圖4 不同窗移下的檢測結果
%
在相同的數(shù)據(jù)庫下,將本文算法與較為典型的3種算法——文獻[5,7,10]中算法進行對比。圖5所示為原始語音與翻錄語音產生的過程圖。文獻[5]算法采用短時能量法提取靜音,譜減法進行濾波,提取MFCC特征參數(shù);文獻[7]方法采用高通濾波器進行去噪,提取信道模式噪聲,并提取6個統(tǒng)計特征及6階Legendre多項式系數(shù);文獻[10]算法將語音信號進行MP3編碼后,提取比例因子統(tǒng)計特征作為檢測特征。實驗中,原始語音6 300個,不同偷錄及回放設備的翻錄語音6 300個。其中,70%用于訓練,其余用于測試。實驗結果如表7所示。
由表7可以看出,相較于傳統(tǒng)的人工提取特征檢測方法,對于多種偷錄及回放設備的翻錄語音,本文算法優(yōu)于文獻[5,7,10]算法,識別率分別提高了約26個百分點、21個百分點和0.35個百分點。從圖5可以看出,翻錄語音在產生的過程中,經歷了壓縮、編碼解碼的過程,會在一定程度上使得翻錄語音產生失真。而不同的偷錄及回放設備,將對翻錄語音產生不同的影響。文獻[5,7]中的方法通過提取信道特征建立模型,但不同的錄音設備其信道特征不同,所用的語音庫錄音設備單一,其方法并不能解決多種偷錄及回放設備的翻錄語音。本文所提方法解決了文獻[5,7]中設備過于單一的問題,更具實用性。
圖5 原始語音與翻錄語音產生的過程
表7 4種算法的識別率對比 %
本文針對多種偷錄設備與回放設備的翻錄語音攻擊,提出了一種基于CNN的翻錄語音檢測算法,并通過模擬實際翻錄語音攻擊的整個物理過程,建立了實驗語音數(shù)據(jù)庫。本文搭建了適用于檢測翻錄語音的網絡框架,分析了不同卷積核大小及卷積核個數(shù)對識別率的影響,確定了最佳檢測效果時的窗移長度,對不同偷錄及回放設備的翻錄語音進行了交叉實驗檢測,并與現(xiàn)有的經典文獻算法進行了對比,且性能優(yōu)于現(xiàn)有算法。在今后的研究中,將需進一步探究各種錄音設備及回放設備對語音的影響,并且在檢測方法上進行創(chuàng)新和改進。
References)
[1] SHANG W, STEVENSON M. A playback attack detector for speaker verification systems [C]// Proceedings of the 2008 International Symposium on Communications, Control and Signal Processing. Piscataway, NJ: IEEE, 2008: 1144-1149.
[2] SHANG W, STEVENSON M. Score normalization in playback attack detection [C]// Proceedings of the 2010 IEEE International Conference on Acoustics Speech and Signal Processing 2010. Piscataway, NJ: IEEE, 2010: 1678-1681.
[3] JAKUB G, MARCIN G, RAFAL S. Playback attack detection for text-dependent speaker verification over telephone channels [J]. Speech Communication, 2015, 67: 143-153.
[4] WU Z, GAO S, CLING E S, et al. A study on replay attack and anti-spoofing for text-dependent speaker verification [C]// Proceedings of the 2014 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. Piscataway, NJ: IEEE, 2015: 35-45.
[5] 張利鵬,曹犟,徐明星.防止假冒者闖入說話人識別系統(tǒng)[J].清華大學學報(自然科學版),2008,48(S1):699-703.(ZHANG L P, CAO J, XU M X. Prevention of impostors entering speaker recognition systems [J]. Journal of Tsinghua University (Science and Technology), 2008, 48(S1): 699-703.)
[6] 王志鋒,賀前華,張雪源,等.基于信道模式噪聲的錄音回放攻擊檢測[J].華南理工大學學報(自然科學版),2011,39(10):7-12.(WANG Z F, HE Q H, ZHANG X Y, et al. Channel pattern noise based playback detection algorithm speaker recognition [J]. Journal of South China University of Technology (Natural Science Edition), 2011, 39(10): 7-12.)
[7] WANG Z F, WEI G, HE Q H. Channel pattern noise based playback attack detection algorithm for speaker recognition [C]// Processing of the 2011 International Conference on Machine Learning and Cybernetics. Piscataway, NJ: IEEE, 2011: 1708-1713.
[8] VILLABA J, LLEIDA E. Detecting replay attacks from far-field recordings on speaker verification systems [C]// BioID 2011: Proceedings of the 2011 European Workshop on Biometrics and Identity Management. Berlin: Springer, 2011: 274-285.
[9] VILLABA J, LLEIDA E. Preventing replay attacks on speaker verification systems [C]// Processing of the 2011 IEEE International Carnahan Conference on Security Technology. Piscataway, NJ: IEEE, 2011: 1-8.
[10] CHEN Y N, WANG R D, YAN D Q, et al. Voice playback detection based on long-window scale-factors [J]. International Journal of Security and Its Application, 2016, 10(12): 299-310.
[11] LIN X, LIU J, KANG X. Audio recapture detection with convolutional neural networks [J]. IEEE Transactions on Multimedia, 2016, 18(8): 1480-1487.
[12] 王天慶,李愛軍.連續(xù)漢語語音識別語料庫的設計[C]//第六屆全國現(xiàn)代語音學學術會議.天津:天津大學出版社2004:544-547.(WANG T Q, LI A J. The design of the continuous Chinese speech recognition corpus [C]// Proceedings of the Sixth National Conference on Modern Phonetics Learning. Tianjin: Tianjin University Press, 2004: 544-547.)
This work is partially supported by the National Natural Science Foundation of China (61672302, 61300055), the Natural Science Foundation of Zhejiang Province (LZ15F020002, LY17F020010), the Natural Science Foundation of Ningbo (2017A610123),the Scientific Research Foundation of Ningbo University (XKXL1509, XKXL1503),the K.C. Wong Magna Fund in Ningbo University.
LICan, born in 1992, M. S. candidate. Her research interests include multi-media information security.
WANGRangding, born in 1962, Ph. D., professor. His research interests include multi-media information security, digital forensics.
YANDiqun, born in 1979,Ph. D., associate professor. His research interests include multi-media information security, digital forensics.