鄭琳琳,張雄偉,孫 蒙,李嘉康,張星昱
(陸軍工程大學指揮控制工程學院,南京,210007)
語音偽裝是指通過改變說話人的個性特征,故意隱藏或偽造說話人的身份[1]。隨著智能語音交互應用的不斷發(fā)展,語音代表個人身份特征的場景日益廣泛,偽裝語音技術(shù)的出現(xiàn)給說話人身份的辨識帶來很大的挑戰(zhàn)。目前,利用各類變聲器及變聲軟件可以對語音進行個性偽裝,致使人耳甚至部分說話人識別系統(tǒng)無法辨識出說話人的身份,嚴重影響語音檢驗鑒定效果,使犯罪分子有機可乘[2-4]。因此,如何進行偽裝語音的說話人身份識別已成為信息安全領域的一個重要且緊迫的課題。
語音偽裝方法可以分為兩種類型:人為偽裝和電子偽裝[5]。人為偽裝是借助人本身的技能進行偽裝,包括說話時采用捏鼻、咬物等方法;電子偽裝是指采用電子設備或語音處理軟件對說話人的原始語音進行變聲偽裝。電子偽裝使用復雜高效的算法,以其高質(zhì)量的偽裝效果和便捷的實現(xiàn)方式,得到了越來越廣泛的應用[6]。文獻[7-9]的研究表明,語音經(jīng)過偽裝后,會明顯降低說話人識別系統(tǒng)的準確率,而且不同的偽裝方法對說話人識別的性能影響各異。實驗發(fā)現(xiàn),利用當前比較成熟的基于高斯混合模型(Gaussian mixture model,GMM)和通用背景模型(Universal background model,UBM)的聲紋識別模型對電子偽裝后的語音進行識別,等錯誤率(Equal error rate,EER)高達40% 以上[10],幾乎無法辨認出偽裝者的身份。因此,在鑒別偽裝者的身份之前,首先需要對偽裝語音進行還原處理。電子偽裝語音的還原問題可以抽象簡化為偽裝因子的估計問題[11]。文獻[12]通過動態(tài)時間規(guī)整(Dynamic time warping,DTW)模型進行偽裝因子估計,再利用矢量量化(Vector quantization,VQ)模型進行說話人識別,一定程度上緩解了VQ 說話人識別系統(tǒng)對電子偽裝語音識別率過低的問題。文獻[10]利用基頻比估計偽裝因子,提出了一種改進的梅爾倒譜系數(shù)(Mel frequency cepstral coefficient,MFCC)提取算法,能夠有效地從電子偽裝的聲音中還原出原始語音的MFCC。針對電子偽裝后的語音,將該算法還原出來的MFCC 特征輸入到GMM-UBM 的自動說話人確認(Automatic speaker verification,ASV)系統(tǒng),說話人確認EER 僅為3%~4%,明顯優(yōu)于未經(jīng)還原的MFCC 特征的40% EER。鑒于該方法的良好性能,本文將其設定為基線系統(tǒng),并在其基礎上進行改進研究。
實驗發(fā)現(xiàn),文獻[10]所述的偽裝因子估計方法對語音質(zhì)量要求過于苛刻,對于真實情況下的含噪偽裝語音的還原效果不是很理想。如何對真實含噪情況下的電子偽裝語音進行還原,是一個更具挑戰(zhàn)性的問題,對后續(xù)的偽裝語音說話人身份識別具有決定性作用。鑒于此,本文將頻域和時域偽裝語音的還原問題抽象為偽裝因子的估計問題,通過基于i-vector 的自動說話人確認方法估計偽裝因子,并引入對稱變換進一步提高估計效果。該方法借助于i-vector 的噪聲魯棒性,提高了真實含噪場景下的偽裝因子估計的精度,從而改進了電子偽裝語音還原的效果。在目前常用的說話人識別數(shù)據(jù)庫VoxCeleb1[13]上的實驗表明,利用該方法估計的偽裝因子錯誤率為4.49%,低于基頻比偽裝程度估計方法的9.19%,為準確進行電子偽裝語音說話人身份的辨識提供了前提條件。
電子語音偽裝的目的是改變語音給予人耳的聽覺感受,最直接的變化就是改變語音的音調(diào)(Pitch)。提高音調(diào),語音變得尖銳;降低音調(diào),語音變得低沉。隨著偽裝程度的加深,正常語音與偽裝語音的差異增大。本節(jié)首先介紹電子偽裝的工作原理,然后給出電子偽裝語音偽裝程度的量化表示。
音調(diào)被用來描述人對語音頻率的感知量,電子語音偽裝改變音調(diào)本質(zhì)上是按照不同的比例因子對頻譜進行壓縮和擴展。語音基音頻率(Fundamental frequency, FF)是指發(fā)濁音時聲帶振動所引起的周期性振動頻率,一般用F0表示,它反映了語音激勵源的重要特征,是語音信號短時內(nèi)較穩(wěn)定的頻率分量。假設原始語音音調(diào)為p0、基頻為f0,經(jīng)偽裝之后的音調(diào)為p1、基頻為f1,音調(diào)和基頻存在式(1)所示的變換關系
式中,α 是音調(diào)變換的比例因子。根據(jù)偽裝變換的方式不同,電子偽裝可以分為2 類:頻域偽裝和時域偽裝。這2 類偽裝方式都可以通過比例因子α 來定量描述。
1.1.1 頻域偽裝
頻域偽裝是指通過直接在語音頻域內(nèi)拉伸或壓縮頻譜來提高或降低音調(diào)的偽裝方式,該方式可以改變語音的音調(diào)而保持語音節(jié)奏不變。
語音頻域分析最常用的方法是傅里葉分析法。因為語音波是一個非平穩(wěn)過程,因此適用于平穩(wěn)周期信號的標準傅里葉變換不能直接用來表示語音信號,而應該用短時傅里葉變換(Short-time Fourier transform,STFT)對語音信號的頻譜進行分析。STFT 首先將信號分幀,然后對每一幀語音信號進行快速傅里葉變換(Fast Fourier transform,F(xiàn)FT),得到頻域分析結(jié)果[14]。
假設| F ( k ) |和ω( k )分別代表原始語音頻域分析后第k 個頻率點處的瞬時幅度和瞬時頻率,α 是音調(diào)變換的比例因子。頻域偽裝變換根據(jù)式(2),將瞬時頻率ω( k )利用比例因子α 修改為ω'(αk ),即
瞬時幅度| F ( k ) |利用線性插值法進行相應的拉伸或壓縮變換
式中,0 ≤k,k' <N 2,k = k' α ,μ = k' α - k。為了簡單起見,仍使用k 作為偽裝后的瞬時幅度| F'|和瞬時頻率ω' 的坐標尺度,記為| F'( k ) |和ω'( k )。根據(jù)| F'( k ) |和ω'( k )可得修改后的FFT 系數(shù)F'( k )。對F′( k ) 執(zhí)行快速傅里葉逆變換(Inverse fast Fourier fransform,IFFT),即可得到頻域偽裝的語音信號。
1.1.2 時域偽裝
時域偽裝一般通過調(diào)整采樣率和采用基音同步疊加(Pitch-synchronous overlap and add method,PSOLA)相結(jié)合的方法來實現(xiàn)。調(diào)整采樣率能夠改變語音信號的FF 從而改變音調(diào)。但是語音信號時頻結(jié)構(gòu)之間的約束性使得信號的時域特性和頻域特性緊密相關,只利用調(diào)整采樣率生成的偽裝語音往往聽起來不夠自然,需要采用PSOLA 對語音進行進一步處理。PSOLA 可以對語音的基頻、時長和短時能量等韻律特征進行修改,使修改之后的語音與原來語音頻譜有著基本相同的包絡[15]。這種偽裝方式既改變了語音的音調(diào),又改變了語速。
PSOLA 首先檢測語音信號x ( t )的音調(diào)的位置和輪廓,加窗提取基音周期函數(shù)P ( t )。利用式(4)對語音信號進行重采樣,修改基音周期函數(shù)P ( t ),在誤差最小準則下重復或丟棄部分語音幀做補償,其中α 是偽裝比例因子
語音經(jīng)過時域偽裝后,語音時長發(fā)生變化的同時音調(diào)也會得到相應升降調(diào)處理。假設原始語音語速為v0,經(jīng)偽裝之后的語音語速為v1,根據(jù)式(1),對于時域偽裝語音存在如式(5)的關系
式中,比例因子α 不僅是時域偽裝語音的音調(diào)變換比和基頻變換比,還是時域偽裝語音的語速變換比。
語音學中,音調(diào)通常用12-半音法來測量,表示音調(diào)最多可提高或降低12 個半音[16]。原始語音音調(diào)p0與偽裝后語音音調(diào)p1之間存在著變換關系
式中,s是半音尺度因子,表示提高或降低s個半音。本文將半音尺度因子s稱為偽裝因子,用來量化表示電子偽裝語音的偽裝程度。如果偽裝因子s>0,說明提高了s個半音;如果s<0,說明降低了s個半音;如果s= 0,說明未改變音調(diào)。
根據(jù)式(1,6)可知,音調(diào)變換比例因子α和偽裝因子s之間的變換關系為
電子偽裝是按照不同的比例因子對頻率分量進行縮放,從而改變語音的音調(diào)??紤]到偽裝前后基頻的變化能反映頻率分量整體的縮放程度,Wang 等[10]提出用基頻比來估計偽裝因子,進而還原語音,其原理如圖1 所示。該方法根據(jù)待測語音與注冊語音的基頻比來估計偽裝因子,利用估計出的偽裝因子修正待測語音的MFCC,從而得到還原后的MFCC 特征。將提出的方法作為特征還原工具應用于GMM-UBM 說話人識別系統(tǒng)的前端,可提高電子偽裝語音偽裝者的識別準確率。在TIMIT 語音庫上的實驗表明,估計所得的偽裝比例因子α' 與真實的比例因子α較接近,平均誤差也很小,最大錯誤率在1.6% 到7.7% 之間,說明基頻比估計作為偽裝還原的手段是可行的。
圖1 利用基頻比確定偽裝因子原理圖Fig.1 Estimation of disguising factor by the ratio of fundamental frequencies
本文將文獻[10]中提出的利用基頻比估計偽裝程度的算法作為基線系統(tǒng)。在訓練階段,提取偽裝嫌疑人Sj的基頻f0的平均值fj;在測試階段,計算待檢測語音Yi的基頻f0的平均值fY,通過式(8,9)估計出偽裝因子s'
基于基頻比的偽裝因子估計方法首先利用簡化逆濾波跟蹤法(Simplified inverse filter tracking,SIFT)提取基頻[17],考慮到每條語句兩端發(fā)音的不穩(wěn)定性,舍棄基頻序列的前15% 和后15% 數(shù)據(jù),保留中間的70% 數(shù)據(jù)用來計算基頻平均值[10]。
然而,基頻提取準確度與語音質(zhì)量有很大關系,當待測語音中含有環(huán)境噪聲或者捏鼻、捂嘴等人為偽裝時,基頻提取會產(chǎn)生較大誤差。對比實驗發(fā)現(xiàn),該基線系統(tǒng)對語音質(zhì)量要求過于苛刻,對于真實情況下的含噪語音的偽裝因子估計結(jié)果不是很理想,相關實驗結(jié)果將在第4 節(jié)給出。真實含噪場景下的電子偽裝語音還原是一個更具有實際應用價值的問題,對于推動電子偽裝語音身份鑒定技術(shù)的應用和發(fā)展具有重要作用。因此,本文借助于ASV 系統(tǒng)的噪聲魯棒性,利用ASV 系統(tǒng)估計偽裝因子,并引入對稱變換進一步提高估計精度。
本節(jié)首先介紹基于說話人確認的偽裝因子估計方法,然后引入對稱變換提高自動說話人確認估計偽裝因子的精度。該方法以目前發(fā)展比較成熟的基于i-vector 的說話人確認模型為基礎,通過概率線性判別分析(Probabilistic linear discriminant analysis,PLDA)最優(yōu)得分時的自變量取值來估計偽裝因子,從而實現(xiàn)電子偽裝語音的還原。
說話人確認是說話人識別任務的一種,旨在利用語音信號中能反映說話人生理和行為的特征來判斷兩段語音是否來自同一個說話人。近年來,說話人確認方法的性能得到了顯著提高,如Reynolds 在實驗室環(huán)境中使用TIMIT 語音數(shù)據(jù)庫對630 個人進行實驗,識別率近乎達到100%[18]?,F(xiàn)實使用中,說話人確認被應用于訪問控制、交易認證和軍事偵察等諸多涉及邏輯和物理訪問的真實身份驗證場景[19]。
基于GMM-UBM 和i-vector 的說話人確認方法是目前發(fā)展比較成熟且被廣泛采用的說話人確認模型,原理如圖2 所示。該模型首先對提取的語音信號的特征(如MFCC 等)在大量語料上訓練一組GMM-UBM 作為通用背景。 在注冊和測試階段,從待測語音S中提取特征,并將這些特征作為觀測值對訓練好的GMM-UBM 做最大后驗概率估計(Maximum a posteriori,MAP),得到高斯超矢量,并進一步提取說話人的特征i-vector,用λ表示[20]。通過對比注冊語句和測試語句所提取的i-vector 的相似程度,即可完成2 條語句是否來自同一個說話人的判決任務。
基于說話人確認系統(tǒng)的偽裝因子估計方法如圖3 所示。該方法通過遍歷偽裝因子的理論取值范圍,對待測偽裝語音進行逐一還原,然后說話人確認系統(tǒng)對每條還原語音與偽裝嫌疑人的語音進行打分,得分最高的還原語音對應的偽裝因子即認為是正確的偽裝因子。本文中說話人確認模型選擇了通過GMM -UBM 提取的i-vector,具體步驟如下:
(1)訓練階段,利用偽裝嫌疑人Sj的正常語音進行注冊,通過說話人確認中的特征提取部分計算得到該說話人的注冊特征λj;
(2)測試階段,待測語音Yi是經(jīng)過電子偽裝的語音信號,但偽裝因子未知,根據(jù)電子偽裝語音的變聲規(guī)律,利用偽裝因子的理論取值s(3 ≤|s| ≤11,s∈Z)對待測語音Yi的頻譜特征進行還原,而后經(jīng)過Griffin_Lim 算法[21]得到還原語音Yi(s);
(3)利用說話人確認分別提取每個因子的還原語音Yi(s)的特征,與偽裝嫌疑人Sj的注冊特征λj計算得分,按照式(10),分數(shù)最高的還原語音對應的偽裝因子即為估計所得的偽裝因子s'。
圖2 基于GMM-UBM 的i-vector 提取方法Fig.2 The i-vector extraction by GMM-UBM
圖3 基于說話人確認的偽裝因子估計方法Fig.3 Estimation of disguising factor by automatic speaker verification
語音經(jīng)過升調(diào)(s>0)電子偽裝后,頻率范圍拉伸,原始語音的高頻部分會被丟棄。因此,升調(diào)電子偽裝語音的還原過程需要將頻率范圍壓縮,并且需要將高頻部分的數(shù)據(jù)額外補全。然而,高頻部分的頻譜數(shù)據(jù)補全過程中會存在誤差[22],導致升調(diào)電子偽裝語音的還原語音與原始語音存在一定差距,還原語音和原始語音的頻譜對比圖在第4 節(jié)中給出。所以第3.1 節(jié)介紹的方法對升調(diào)電子偽裝語音的偽裝因子估計存在潛在誤差。為提高升調(diào)電子偽裝語音的偽裝因子估計精度,本節(jié)通過引入偽裝因子的對稱變換,對基于說話人確認的偽裝因子估計方法進行改進,如圖4 所示。具體步驟如下所述:
(1)注冊階段,通過將偽裝因子遍歷取值范圍3 ≤s≤11 來修改偽裝嫌疑人Sj的語音,加上該說話人的正常語音,共得到10 組語音,所以注冊階段可得到該說話人的10 個模型(每組語音注冊1 個模型),如圖4 左半部分所示;
(2)測試階段,僅利用偽裝因子的降調(diào)理論取值范圍對待測語音Yi進行還原,即-11≤s≤-3,得到還原語音Yi(s),如圖4 右半部分所示;
(3)計算偽裝嫌疑人Sj的正常語音模型與還原語音Yi(s) 的得分score-11~score-3,偽裝嫌疑人Sj的9 個升調(diào)偽裝語音模型與待測語音Yi的得分score3~score11,比較上述18 個得分,最高分對應的偽裝因子就是估計所得的偽裝因子s',如圖4 中間虛線框所示。
圖4 利用對稱變換改進基于說話人確認的偽裝因子估計方法Fig.4 Improving estimation of disguising factor based on automatic speaker verification by symmetric transform
4.1.1 電子偽裝語音生成
實驗用的電子偽裝語音由SoundStretch 音頻處理軟件產(chǎn)生。SoundStretch 可以對音頻文件執(zhí)行實現(xiàn)變速不變調(diào)(Rate)、變調(diào)不變速(Pitch)、變速同時變調(diào)(Tempo)3 個操作。由于Rate 處理對說話人確認系統(tǒng)以及人耳辨識干擾不大,這里只考慮基于頻域偽裝的Pitch 處理和基于時域偽裝的Tempo 處理作為變聲手段。當偽裝程度過小或過大時,偽裝效果不明顯或不能辨別出語義特征,對說話人確認系統(tǒng)以及人耳辨識系統(tǒng)的威脅很小。因此,本文考慮了18 種偽裝程度的偽裝語音,對應偽裝因子取值范圍為+3~+11 以及-3~-11。
4.1.2 數(shù)據(jù)集
實驗用的數(shù)據(jù)集包括TIMIT 和VoxCeleb1 兩個語音數(shù)據(jù)集。
由德州儀器(Texas Instruments, TI)、麻省理工學院(Massachusetts Institute of Technology, MIT)和斯坦福研究院合作構(gòu)建的聲學-音素連續(xù)語音語料庫TIMIT 是一個評價語音識別和說話人識別常用的權(quán)威語音庫,包括630 人8 個不同地區(qū)的美國方言錄制的音頻信息。該語音庫采用16 kHz 采樣率、16 位量化和RIFF/WAV 格式,每段錄音的時長約為3 s。實驗利用該語音庫訓練GMM-UBM 模型。
VoxCeleb1 是一個視聽數(shù)據(jù)集,含有語音數(shù)據(jù)和視頻數(shù)據(jù),其中語音部分由從上傳到Y(jié)ouTube 的采訪視頻中提取的語音短片組成,帶有真實噪聲,且噪聲出現(xiàn)時間點無規(guī)律。說話者覆蓋到了不同年齡、性別、口音;語音的場景也非常豐富,包括紅毯走秀、室外場館、室內(nèi)錄影棚等,屬于完全真實的英文語音[13]。本文隨機選取該數(shù)據(jù)集中100 位說話人,每人11 條語音,其中10 條用來注冊1 條用來測試。測試語音利用SoundStretch 音頻處理程序進行不同程度的偽裝處理,得到18 組偽裝因子為+3~+11以及-3~-11 的頻域電子偽裝語音和18 組偽裝因子為+3~+11 以及-3~-11 的時域電子偽裝語音,每組含有100 位說話人各1 條待測電子偽裝語音。
4.2.1 基線系統(tǒng)估計偽裝因子結(jié)果
在含噪語音庫VoxCeleb1 的頻域偽裝數(shù)據(jù)集上利用基頻比估計偽裝因子,實驗結(jié)果如表1 所示。
表1 VoxCeleb1 頻域偽裝數(shù)據(jù)集上利用基頻比估計偽裝因子的實驗結(jié)果Table 1 Performance on the estimation of disguising factor using F0-ratio on VoxCeleb1 with frequencydomain disguise
表1 中,s是真實偽裝因子,s'mean(s)是每組數(shù)據(jù)估計出的偽裝因子的平均值,Emean(s)=|s'mean(s)-s|是平均誤差,Emean(s)s是平均誤差率,Var(s)是每組實驗數(shù)據(jù)的方差。
從表1 中可以看出,隨著偽裝程度增大,偽裝因子估計誤差也呈增大趨勢,最大錯誤率高達20.83%。表1 的實驗結(jié)果還表明,估計所得的偽裝因子平均錯誤率達9.27%,平均方差為15.88,估計偏差遠大于干凈語音庫上的實驗結(jié)果?;诨l比的偽裝因子估計方法在VoxCeleb1 的時域電子偽裝數(shù)據(jù)集上也得到了類似的結(jié)果,此處不再贅述。
4.2.2 利用說話人確認估計偽裝因子的實驗結(jié)果
利用GMM-UBM 和i-vector 的說話人確認方法對VoxCeleb1 頻域偽裝數(shù)據(jù)集和時域偽裝數(shù)據(jù)集分別進行偽裝因子估計實驗,實驗結(jié)果在表2 和表3 中給出。利用說話人確認系統(tǒng)估計的偽裝因子在頻域偽裝數(shù)據(jù)集上的平均錯誤率為12.26%、平均方差為5.05,在時域偽裝數(shù)據(jù)集上的平均錯誤率為14.13%、平均方差為6.44。
表2 VoxCeleb1 頻域偽裝數(shù)據(jù)集上利用ASV 估計偽裝因子實驗結(jié)果Table 2 Performance on the estimation of disguising factor using ASV on VoxCeleb1 with frequency-domain disguise
表3 VoxCeleb1 時域偽裝數(shù)據(jù)集上利用ASV 估計偽裝因子實驗結(jié)果Table 3 Performance on the estimation of disguising factor using ASV on VoxCeleb1 with time-domain disguise
當s<0 時,估計的偽裝因子偏差較小,方差最大值僅為4.74,說明基于說話人確認的偽裝因子估計方法對降調(diào)偽裝語音的效果較好。當s>0 時,估計的偽裝因子方差仍明顯小于基線系統(tǒng),但偏差較大(≈20%)。我們做出正常語音、升調(diào)偽裝語音以及升調(diào)偽裝語音的還原語音的頻譜圖進行對比,如圖5所示。正如3.1 節(jié)所指出的,對升調(diào)語音進行還原時,高頻部分不能被有效恢復。雖然還原后的語音不影響人耳聽覺效果(人耳聽覺對低頻信息敏感,對高頻信息不太敏感),但丟失了大量高頻信息,對說話人確認方法的性能造成了較大影響,從而影響了偽裝因子的準確估計。
圖5 正常語音、偽裝語音及還原語音的頻譜圖Fig.5 Spectrum of normal speech, disguised speech and restored speech
4.2.3 利用對稱變換改進說話人確認估計偽裝因子的實驗結(jié)果
本文利用VoxCeleb1 偽裝數(shù)據(jù)集對經(jīng)過對稱變換改進后的基于說話人確認的偽裝因子估計方法進行了測試,實驗結(jié)果在表4 和表5 中給出??梢钥闯觯c3.1 節(jié)中的偽裝因子估計方法相比,改進后的方法對升調(diào)偽裝語音的偽裝因子估計的錯誤率僅為6%,最大方差為0.74,準確率明顯提高。同時也可以發(fā)現(xiàn),改進模型對降調(diào)偽裝語音的偽裝因子識別率較4.2.2 節(jié)中的結(jié)果有所下降,除偽裝因子-11 外,識別準確率仍明顯優(yōu)于基線系統(tǒng)。經(jīng)計算,利用改進模型估計的偽裝因子在頻域偽裝數(shù)據(jù)集上的平均錯誤率為4.49%、平均方差為6.19,在時域偽裝數(shù)據(jù)集上的平均錯誤率為3.17%、平均方差為3.75,均明顯優(yōu)于基線系統(tǒng)。
表4 VoxCeleb1 頻域偽裝數(shù)據(jù)集上利用對稱變換改進偽裝因子估計的實驗結(jié)果Table 4 Performance on estimation of disguising factor using ASV and symmetric transform on VoxCeleb1 with frequency-domain disguise
表5 VoxCeleb1 時域偽裝數(shù)據(jù)集上利用對稱變換改進偽裝因子估計的實驗結(jié)果Table 5 Performance on estimation of disguising factor using ASV and symmetric transform on VoxCeleb1 with time-domain disguise
對上述3 種偽裝因子估計方法的結(jié)果進行綜合比較,可以看出,本文利用說話人確認估計偽裝因子的錯誤率明顯低于基線系統(tǒng),對于降調(diào)電子偽裝語音的估計結(jié)果與理論值誤差很小,但對于升調(diào)電子偽裝語音效果略差。改進后的基于對稱變換的偽裝因子估計方法的誤差對于升調(diào)電子偽裝語音保持在較低的水平,對于降調(diào)電子偽裝語音誤差增大,但總體偽裝因子估計均值明顯優(yōu)于基線系統(tǒng),說明本文提出的利用偽裝因子對稱變換改進的基于說話人確認的偽裝因子估計方法是有效的。
此外,本文中的i-vector 自動說話人確認模型是在干凈語音庫TIMIT 上訓練的,而測試集是含噪語音庫Voxceleb1。在訓練集和測試集噪聲條件不匹配的情況下,基于說話人確認的偽裝因子估計方法的實驗效果仍明顯優(yōu)于基線系統(tǒng)。因此,本文改進的電子偽裝語音還原方法不僅具有噪聲魯棒性,還具有較好的泛化性能。
偽裝因子的估計過程本質(zhì)上就是電子偽裝語音的還原過程,得到了偽裝因子,就能相應地得到還原語音。利用基頻比方法估計得到偽裝因子后,對電子偽裝語音的基頻進行逆變換,就可以對應得到基于基頻比方法的還原語音;利用本文提出的基于說話人確認的偽裝因子估計方法得到偽裝因子后,相應地也可以從N 句預還原語音中找出正確的還原語音?;诓煌膫窝b因子估計方法,可以將電子偽裝語音還原方法分為以下幾種:基于基頻比的基線還原方法、基于說話人確認的還原方法以及利用對稱變換改進的基于說話人確認的還原方法。
為了進一步評測語音還原的效果,引入了說話人確認中的EER 作為另一種客觀指標。不同的電子偽裝語音還原方法的說話人確認系統(tǒng)性能如表6,7 所示。從表中可以看出,電子偽裝語音對說話人確認系統(tǒng)影響很大,不采取任何還原措施的電子偽裝語音說話人確認系統(tǒng)EER 高達40% 以上?;诨l比的還原方法得到的還原語音說話人確認性能得到一定的改善,但EER 仍高于24%?;谡f話人確認的還原方法和利用對稱變換改進的基于說話人確認的還原方法得到的還原語音說話人確認性能得到明顯改善,EER 低于20%。
表6 頻域偽裝數(shù)據(jù)集上不同還原方法得到的還原語音說話人確認性能對比Table 6 Comparison of recognition performance of restored speech speakers using different methods on frequency-domain disguise
利用對稱變換改進的基于說話人確認的還原方法對于升調(diào)偽裝與降調(diào)偽裝的偽裝因子估計準確率類似,但對于升調(diào)偽裝的EER 尚存在差距,值得進一步探索其原因。
語音技術(shù)的發(fā)展給人們帶來了極大的便利,然而電子偽裝語音技術(shù)的出現(xiàn)給說話人識別帶來了極大挑戰(zhàn),電子偽裝語音的身份識別成為目前語音處理和信息安全領域非常有實用意義的研究問題。本文針對當前偽裝程度估計方法在真實含噪數(shù)據(jù)集上不理想的問題,提出了一種基于對稱變換和ASV 的電子偽裝語音還原方法,能夠有效估計含噪電子偽裝語音的偽裝因子,錯誤率僅為4.49%,明顯低于利用基頻比確定偽裝因子的方法,為深入開展電子偽裝語音的說話人身份識別任務奠定了基礎。
表7 時域偽裝數(shù)據(jù)集上不同還原方法得到的還原語音說話人確認性能對比Table 7 Comparison of recognition performance of restored speech speakers using different methods on timedomain disguise