江婧,王潤,張金連,郗濤,顏普
(1.安徽建筑大學(xué) 數(shù)理學(xué)院,安徽 合肥 230601;2.安徽建筑大學(xué) 電子與信息工程學(xué)院,安徽 合肥 230601)
隨著信息網(wǎng)絡(luò)時代的迅猛發(fā)展,越來越多的社交軟件涌現(xiàn)出來,如QQ、微信等。這些社交軟件功能相對豐富,支持貨幣交易,也成為新的付款方式。同時其語音消息功能也給生活帶來極大便利。然而帶給人們生活便利的同時,也滋生出一些新的詐騙手段——冒充親友來侵害人身財產(chǎn)安全的語音詐騙[1]。如:親朋好友的微信或QQ 等平臺賬號被盜,盜號者進(jìn)行要求轉(zhuǎn)賬的語音詐騙,盜號者通過發(fā)來與賬號持有者音色相似的要求轉(zhuǎn)賬等內(nèi)容的語音實(shí)施詐騙。通常這類語音是盜號者通過對賬號持有者語料的了解及收集,然后利用計算機(jī)篡改語音,因此人耳有時候難以辨別真假從而上當(dāng)受騙。此類詐騙事件不僅使受害者的財產(chǎn)安全受到了威脅,而且大大降低了受害者對網(wǎng)絡(luò)安全的信任。
對于計算機(jī)篡改的語音,大部分鑒別算法都是將語音信號由時域變換到頻域,從幅度或者相位信息提取檢測特征[2]。通過提取語音信號本身的一種特征參數(shù),使用支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等模型進(jìn)行訓(xùn)練,對特征參數(shù)及訓(xùn)練模型進(jìn)一步優(yōu)化并最終鑒別語音的真?zhèn)?。李燕萍[3]利用語音的MFCC(Mel Frequency Cepstral Coefficients)對電子偽裝語音進(jìn)行鑒定;Paul D[4]利用語音的短時譜特征完成了對合成語音和自然語音的鑒別;余建潮[5]利用語音的MFCC 和LPCC (Linear Predictive Cepstral Coding)大大增加了說話人識別的準(zhǔn)確率;黃秀彬[6]利用語音的LPCC 進(jìn)一步增加了語音識別的準(zhǔn)確率;張立[7]利用語音的高頻信息提出了一種能同時檢測多種偽裝語音類型的鑒別算法。然而,在實(shí)際鑒別中,使用單一語音特征參數(shù)有很大的局限性。隨著單一參數(shù)語音鑒偽算法的出現(xiàn),詐騙者也開始對計算機(jī)合成偽裝語音技術(shù)進(jìn)一步提升,使得合成偽裝語音的自然度越來越貼近自然語音,因此單一的語音特征參數(shù)鑒偽算法的準(zhǔn)確率可能會大大降低。
針對單一的語音特征鑒偽算法準(zhǔn)確率低的情況,本文通過融合梅爾倒譜系數(shù)以及聲譜圖灰度共生矩陣的平均能量E、平均熵H、平均慣性矩I、相關(guān)性C、音頻信號的平均基因周期、平均短時能量、平均幅度等特征,利用BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,從而鑒別原始語音和纂改語音。實(shí)驗(yàn)結(jié)果表明,本文所提出的多特征參數(shù)融合的語音鑒偽算法較傳統(tǒng)的單一特征參數(shù)鑒別合成偽語音算法在鑒別準(zhǔn)確率上有較大提升,同時比起傳統(tǒng)的鑒別算法可以鑒別的偽裝語音范圍更廣,使用局限性更低。
BP (Back Propagation) 網(wǎng)絡(luò)模型[8]處理信息的基本原理是:輸入信號Xi通過中間節(jié)點(diǎn)(隱層點(diǎn))作用于輸出節(jié)點(diǎn),經(jīng)過非線形變換,產(chǎn)生輸出信號Yk,網(wǎng)絡(luò)訓(xùn)練的每一個樣本包含輸入向量X 和期望輸出量t,網(wǎng)絡(luò)輸出值Y 與期望輸出值t 之間的偏差,通過調(diào)整輸入節(jié)點(diǎn)與隱層節(jié)點(diǎn)的聯(lián)接強(qiáng)度取值Wij和隱層節(jié)點(diǎn)與輸出節(jié)點(diǎn)之間的聯(lián)接強(qiáng)度取值Tjk以及閾值,使誤差沿梯度方向下降,經(jīng)過重復(fù)學(xué)習(xí)訓(xùn)練,確定與最小誤差相對應(yīng)的網(wǎng)絡(luò)參數(shù)(權(quán)值和閾值),訓(xùn)練停止。
(1)節(jié)點(diǎn)輸出模型
其中f 代表非線性激活函數(shù);q 表示神經(jīng)元閾值。
(2)激活函數(shù)模型
激活函數(shù)是反映下層輸入對上層節(jié)點(diǎn)刺激脈沖強(qiáng)度的函數(shù),又稱刺激函數(shù),一般取為(0,1)連續(xù)取值Sigmoid 函數(shù):
(3)誤差計算模型
誤差計算模型是反映神經(jīng)網(wǎng)絡(luò)期望輸出與計算輸出之間誤差大小的函數(shù):
其中tpi- i 代表節(jié)點(diǎn)的期望輸出值;Qpi- i 表示節(jié)點(diǎn)計算輸出值。
本文提出一種基于多特征融合的合成語音鑒偽算法,其算法流程圖如圖1 所示。分別提取真實(shí)語音和偽造語音的聲譜圖灰度共生矩陣的四項(xiàng)指標(biāo)(平均能量E、平均熵H、平均慣性矩I 和相關(guān)性C)、音頻的平均短時能量、音頻信號的平均幅度、平均基因周期、梅爾頻率倒譜系數(shù)等特征,用多特征融合的43 維特征參數(shù)訓(xùn)練BP 神經(jīng)網(wǎng)絡(luò),輸入神經(jīng)元的個數(shù)為43,輸出神經(jīng)元的個數(shù)為1,根據(jù)經(jīng)驗(yàn)不斷調(diào)整中間神經(jīng)元的個數(shù)并不斷迭代,在中間神經(jīng)元為19 時,得到一個結(jié)構(gòu)為43×19×1 的BP神經(jīng)網(wǎng)格模型。
圖1 鑒別偽語音流程圖
2.2.1 聲譜圖灰度共生矩陣
將語音信號作傅里葉變換,以橫軸為時間,縱軸為頻率,用顏色表示幅值繪制出聲譜圖如圖2。從紋理特征的角度研究音頻對應(yīng)聲譜圖的特征,對聲譜圖進(jìn)行灰度共生矩陣[9]的計算。首先將各顏色分量轉(zhuǎn)化為灰度(所用圖像灰度級均為256),對原始圖像灰度級壓縮,將Gray 量化成16 級;對共生矩陣計算能量、熵、慣性矩、相關(guān)性4 個紋理參數(shù),得到平均能量E,平均熵H,平均慣性矩I,相關(guān)性C 的四個特征參數(shù)均值。
圖2 聲譜圖
2.2.2 平均短時能量
語音信號是隨時間變化的非平穩(wěn)隨機(jī)過程,因此對于語音信號的分析一般為短時分析。語音的狀態(tài)不會發(fā)生突變,在短時間內(nèi)語音信號的特性基本不變,稱之為語音的短時平穩(wěn)性。通過對語音的分幀加窗,得到語音信號的短時能量特征。
利用公式
可求得n 時刻某語音信號的短時平均能量,語音信號的平均短時能量能夠在較高程度上反映短時信號的頻率特性。
2.2.3 平均幅度
短時能量對信號電平值敏感,需要計算信號樣值的平方和,在定點(diǎn)出現(xiàn)時容易產(chǎn)生溢出。短時平均幅度函數(shù)計算小取樣值和大取樣值不會因電平而存在較大差異,因而可以用來衡量語音幅度的變化,對語音進(jìn)行表征。
短時平均幅度定義為
利用短時平均幅度函數(shù)
可求得語音信號的短時平均幅值。
2.2.4 平均基音周期
聲帶振動的頻率稱為基頻,相應(yīng)的周期就稱為基音周期[10]。
利用短時平均幅度差函數(shù)
rw( )
l 可呈現(xiàn)與濁音語音周期一致的周期特性。
提取語音數(shù)據(jù)庫七類特征參數(shù)值,取部分表格為例。對原始語音①及其對應(yīng)篡改音頻的特征參數(shù)表格截取如表1 所示。
2.2.5 梅爾頻率倒譜系數(shù)
梅爾頻率倒譜系數(shù)(MFCC)就是組成梅爾頻率倒譜的系數(shù)[11]。梅爾頻率倒譜的頻帶根據(jù)梅爾刻度等距劃分,比正常的對數(shù)倒頻譜中線性間隔的頻帶能更好地模擬人耳聽覺系統(tǒng)。梅爾頻率倒譜系數(shù)可以準(zhǔn)確地表征短時間功率譜的包絡(luò)線。
表1 特征參數(shù)值
梅爾頻率倒譜系數(shù)先將線性頻譜映射到基于聽覺感知的梅爾頻率倒譜系數(shù)非線性頻譜中,然后轉(zhuǎn)換到倒譜上。
將普通頻率轉(zhuǎn)化到梅爾頻率:
其中,Mel( )
f 的單位為Mel ,f 的單位為Hz。
將原語音信號經(jīng)過傅里葉變換得到頻譜,將頻譜通過一組梅爾濾波器得到梅爾頻譜。
其中,logX[ k ]是頻譜信號,spectrum 是語音信號的原頻譜。
在log X[k]上進(jìn)行倒譜分析:
其中l(wèi)ogH[ k ]表示頻譜的包絡(luò),logE[ k ]表示頻譜的細(xì)節(jié)。
其中x[ k ]就是倒譜,h[ k ]描述了頻譜的包絡(luò)。
在梅爾頻譜上獲得的倒譜系數(shù)h[ k ]就稱為梅爾頻率倒譜系數(shù),簡稱MFCC。但梅爾頻率倒譜系數(shù)只能描述人耳的靜態(tài)特性,不能夠表達(dá)出語音幀之間的變化特性,為了更好的對語音信號進(jìn)行表征,將梅爾頻率倒譜系數(shù)的靜態(tài)頻譜轉(zhuǎn)換為動態(tài)頻譜,從頻譜中提取梅爾頻率倒譜系數(shù)的一階差分倒譜系數(shù)[12],將一階差分倒譜系數(shù)再次差分處理,得到特征參數(shù)的二階差分倒譜系數(shù),可以表達(dá)語音信號幀與幀瞬間變化的動態(tài)特性。
3.1.1 原音頻的獲取
為求在有限的語料數(shù)據(jù)量內(nèi),對音頻的音節(jié)音子、類型、音調(diào)、音連以及韻律等盡可能全面的覆蓋,從標(biāo)貝(北京)科技有限公司的免費(fèi)開放中文標(biāo)準(zhǔn)女聲音庫獲取專門用來語音研究的原音頻10000 條(專業(yè)錄音環(huán)境中錄音的音頻,單聲道錄音,采樣格式均為無壓縮PCM WAV 格式,采樣率為48 kHz,16 bit)。此語音庫錄音語料涵蓋各領(lǐng)域,語料設(shè)計綜合語料樣本量。取其中300 條語音作為原始音頻并編號。
3.1.2 篡改音頻的獲取
實(shí)驗(yàn)用于篡改音頻的方式采用較為基礎(chǔ)的語音合成方法,從基礎(chǔ)篡改出發(fā)研究音頻特性。實(shí)驗(yàn)語音的篡改方式貼近生活實(shí)際,保持語音的篡改與原語音有一定相似度。對部分原始音頻進(jìn)行基礎(chǔ)合成篡改(升降音階、加入各種特效、局部篡改等),得到160 段經(jīng)篡改的篡改音頻并編號。將原始語音和篡改后的語音放入同一個數(shù)據(jù)庫,最終得到樣本容量為460 的實(shí)驗(yàn)語音數(shù)據(jù)庫。
提取實(shí)驗(yàn)語音數(shù)據(jù)庫中全部460 條語音樣本的各類特征參數(shù)(聲譜圖灰度共生矩陣的四項(xiàng)指標(biāo)的各自均值:平均能量E、平均熵H、平均慣性矩I和相關(guān)性C;平均基因周期;音頻的平均短時能量;音頻信號的平均幅度;梅爾頻率倒譜系數(shù)),用六種方法測試實(shí)驗(yàn)。方法一使用音頻的12 維梅爾頻率倒譜系數(shù)作為BP 神經(jīng)網(wǎng)絡(luò)的輸入層進(jìn)行訓(xùn)練;方法二使用音頻的梅爾頻率倒譜系數(shù)的12 維一階差分系數(shù)[13]作為BP 神經(jīng)網(wǎng)絡(luò)的輸入層進(jìn)行訓(xùn)練;方法三使用音頻的梅爾頻率倒譜系數(shù)的12 維二階差分系數(shù)[13]作為BP 神經(jīng)網(wǎng)絡(luò)的輸入層進(jìn)行訓(xùn)練;方法四使用結(jié)合一階差分以及二階差分后的36 維梅爾頻率倒譜系數(shù)作為BP 神經(jīng)網(wǎng)絡(luò)的輸入層進(jìn)行訓(xùn)練;方法五使用七類特征參數(shù)(聲譜圖灰度共生矩陣的四項(xiàng)指標(biāo)的各自均值:平均能量E、平均熵H、平均慣性矩I 和相關(guān)性C[9];平均基因周期;音頻的平均短時能量;音頻信號的平均幅度)作為BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入層進(jìn)行訓(xùn)練;方法六作為本文所提算法采用多特征融合的方式,將全部43 維特征參數(shù)作為BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入層進(jìn)行訓(xùn)練。
每種方法得到網(wǎng)絡(luò)模型的鑒別準(zhǔn)確率如表2所示,對比六種測試方法發(fā)現(xiàn):使用多特征融合參數(shù)作為訓(xùn)練輸入層的BP 神經(jīng)網(wǎng)絡(luò)模型對語音鑒偽準(zhǔn)確率更高,最高準(zhǔn)確率可達(dá)94.1%,再由均方差訓(xùn)練補(bǔ)償圖可知用43 維(結(jié)合36 維MFCC 和七個一維特征參數(shù))作為多特征融合特征參數(shù)做輸入神經(jīng)元的迭代誤差最小。
圖3 均方差訓(xùn)練補(bǔ)償圖
圖3 為均方差訓(xùn)練補(bǔ)償圖,每個子圖中三條曲線分別代表訓(xùn)練(藍(lán)色),驗(yàn)證(綠色),測試(紅色)曲線,橫坐標(biāo)為迭代次數(shù),縱坐標(biāo)為每次迭代樣本的均方根誤差。圖3(a)至圖3(f)分別是第一種方法到第六種本文所提算法的均方差訓(xùn)練補(bǔ)償圖,可以看出本文所提算法的迭代誤差最小,在五次迭代左右迭代誤差已達(dá)很小。
表2 鑒別準(zhǔn)確率及迭代最小誤差
針對計算機(jī)篡改語音,本文對語音鑒偽進(jìn)行主要研究,并取得一定的研究成果:通過融合語音多特征參數(shù),將融合后的多特征參數(shù)投入神經(jīng)網(wǎng)絡(luò)進(jìn)一步優(yōu)化訓(xùn)練,建立了鑒別準(zhǔn)確率可達(dá)94.1% 的43×19×1 語音鑒偽網(wǎng)絡(luò)模型。使用模型訓(xùn)練結(jié)果表明與常用的單一特征鑒偽相比,
本文所提的多維融合特征鑒別準(zhǔn)確率更高。本文對于計算機(jī)篡改語音的研究工作具有一定的意義,期望本文所提多特征融合語音鑒偽算法能為篡改語音鑒偽提供新的研究方向,就本文而言仍然有很多值得深入探討的內(nèi)容。