張永兵,米保全,周 亮,張 濤
(1.甘肅機電職業(yè)技術(shù)學(xué)院,甘肅 天水 741001; 2.蘭州理工大學(xué) 計算機與通信學(xué)院,甘肅 蘭州 730050)
多媒體語音作為傳遞信息最為直接和方便的多媒體應(yīng)用之一,在一些特定的環(huán)境下包含有重要和敏感的機密內(nèi)容,如金融會議、法庭證據(jù)、軍事指令和通信錄音等。與此同時,現(xiàn)代音頻處理工具的多樣化以及無線和網(wǎng)絡(luò)等通信信道的開放性,使得對于語音的改動變得非常容易。在即時通信領(lǐng)域內(nèi),如何在確保語音通信的安全性、真實性以及完整性的前提下,進行安全通信的傳輸認證操作,具有十分重要的研究意義[1-2]。
語音的感知特征作為語音信號的重要參數(shù),感知哈希技術(shù)是通過提取語音信號中的感知特征并映射成一段唯一的摘要,通過數(shù)學(xué)距離進行度量,可以建立一種有效機制來比較2個語音片段的聽覺質(zhì)量,并為語音內(nèi)容的認證、檢索以及拷貝威懾等信息服務(wù)方式提供安全可靠的途徑[3-5]。通常,在錄制語音時,會對語音進行壓縮、采樣和剪切等操作,并且難以避免地會引入一定的環(huán)境噪聲,這些操作對感知哈希系統(tǒng)的性能會產(chǎn)生很大影響[6-7],如何降低這些操作對認證性能的影響是研究中首要關(guān)注的問題。
目前,在文獻[8]中由Kalker T等提出的語音感知哈希算法得到了廣泛應(yīng)用。通過利用感知哈希技術(shù)來進行驗證多媒體音頻信息的內(nèi)容完整性和真實性,以此來達到保護多媒體信息的目的。針對語音信息的獨特特性,選取感知哈希技術(shù)作為支持,生成由語音內(nèi)容感知特性映射得到的感知哈希特征值,可以對語音、音頻以及寬帶音頻信號進行認證。近年來,國內(nèi)外研究學(xué)者對語音感知哈希認證算法做了大量研究,對特征的提取和處理方法眾多,其基本思路是研究如何利用語音信息的時頻特性[9-11]、梅爾頻率倒譜系數(shù)[12]、多重分形特征[13]等,或幾種特征相結(jié)合的特征構(gòu)造感知哈希值。Huang等人[14]在文獻中提出了一種語音自適應(yīng)梅爾頻率倒譜系數(shù)和線性預(yù)測倒譜系數(shù)融合的語音感知哈希算法,該算法通過由語音生成的感知哈希串來進行哈希匹配,以此來實現(xiàn)語音信號的認證。此算法有效提高了哈希認證的魯棒性,并且可以實現(xiàn)語音內(nèi)容小范圍篡改的檢測,但是此算法的區(qū)分性和魯棒性表現(xiàn)一般。Chen等[15]提出一種線性預(yù)測結(jié)合非負矩陣語音感知哈希算法,該算法在認證效率上有較好的表現(xiàn),但是算法的區(qū)分性和魯棒性效果不佳。
針對上述文獻中遇到的問題,為了進一步權(quán)衡語音感知哈希算法在語音內(nèi)容保持操作魯棒性和區(qū)分性折中的平衡性,獲得較好的魯棒性和區(qū)分性,以及可以滿足現(xiàn)有環(huán)境下語音通信的語音內(nèi)容認證算法復(fù)雜度低和認證精度高的要求,提出了一種基于自相關(guān)的語音感知哈希認證算法。設(shè)計了一種基于短時互相關(guān)系數(shù)的語音感知哈希算法,并通過得到的感知哈希序列對語音數(shù)據(jù)進行內(nèi)容認證。通過利用語音數(shù)據(jù)的短時互相關(guān)特征,并結(jié)合非負矩陣分解得到的特征參數(shù)矩陣所構(gòu)造的感知哈希序列具有較好的魯棒性和區(qū)分性,能夠滿足對語音內(nèi)容完整性認證的需求。
語音信號在短時范圍內(nèi)可以認為是穩(wěn)態(tài)、時不變的,故在語音信號相關(guān)性分析時采用短時分析技術(shù)。在短時分析中,通過對語音分幀來分析每幀語音的特征參數(shù),對整體的語音信號來講,每一幀特征參數(shù)構(gòu)成了其特征參數(shù)序列。設(shè)語音信號為s(n),通過加窗函數(shù)分幀處理后得到第i幀的語音信號為si(m),可定義為:
si(m)=ω(m)×s((i-1)×inc+m),
1≤m≤L,1≤i≤fm,
(1)
式中,ω(m)為窗函數(shù);si(m)為第i幀的數(shù)值,m=1,2,…,L,i=1,2,…,fm,L為幀長;inc為幀移長度;fm為分幀后的總幀數(shù)。
自相關(guān)函數(shù)用于衡量信號自身時間波形的相似性。語音信號s(n)按式(1)分幀后為si(m),i表示第i幀(i=1,2,…,fm)。每幀數(shù)據(jù)的短時自相關(guān)函數(shù)定義為:
(2)
式中,L為語音分幀后每幀的長度;k為延遲量;m為幀內(nèi)樣點,m=1,2,…,L。
在信號分析理論中,自相關(guān)函數(shù)能夠用來確定輸出信號有多大程度來自輸入信號,是在噪聲背景下提取有用信息的重要方法,廣泛應(yīng)用于語音、圖像處理等信號分析中。對于語音信號來說,短時自相關(guān)分析是一個重要的方法,能夠用來求解濁音的基音周期,以及語音識別中的特征參數(shù)等[16]。本文將提取語音信號的短時自相關(guān)系數(shù)來構(gòu)造用于認證的語音感知哈希序列。
基于短時自相關(guān)的語音感知哈希認證算法流程如圖1所示。
圖1 語音感知哈希認證算法流程
語音信號經(jīng)過預(yù)處理和分幀與加窗后,采用短時自相關(guān)分析求得自相關(guān)系數(shù)矩陣,并將其構(gòu)造為用于認證的感知哈希序列。對語音信號進行感知哈希構(gòu)造和匹配的詳細處理步驟如下:
步驟1:預(yù)處理。
設(shè)輸入的語音信號為s(n),通過數(shù)字濾波器預(yù)加重處理后的語音為s′(n),其目的是對語音的高頻部分進行預(yù)加重處理,去除雜音的影響,并增加語音的高頻分辨率,以便于更好地提取語音的感知特征。
步驟2:分幀與加窗。
語音信號在短時范圍內(nèi)可以認為是穩(wěn)態(tài)、時不變的,故通常對語音進行分幀處理來分析每幀的特征參數(shù),對s′(n)利用式(1)可得到通過加窗函數(shù)w(m)分幀處理后的第i幀語音信號si(m)。
步驟3:特征提取。
根據(jù)式(2)首先計算每幀語音信號si(m)的自相關(guān)系數(shù),得到自相關(guān)系數(shù)矩陣X(fm,B),其中B為計算每個語音幀所得到的自相關(guān)系數(shù)的長度,為2L-1;然后對互相關(guān)系數(shù)矩陣X(fm,B)的每一條行向量[g(1,Bj),g(2,Bj), …,g(fm,Bj)]′中的數(shù)值進行降序排列,其中j=1,2,…,2L-1,并由每一行中數(shù)值較大的值構(gòu)成最終的自相關(guān)系數(shù)矩陣G(fm,,D),其中D為每一行中數(shù)值較大的系數(shù)個數(shù),即相關(guān)性較大的數(shù)值個數(shù),綜合考慮算法的效率和感知哈希的性質(zhì),本文方法中D的取值為24;最后,對矩陣G(fm,,D)利用非負矩陣分解進行降維處理,生成最終的特征參數(shù)矩陣H1(fm,1)。
步驟4:感知哈希構(gòu)造。
對特征參數(shù)矩陣H1(fm,1)進行二進制哈希構(gòu)造,則語音信號s(n)的感知哈希序列為H。計算H1(fm,1)矩陣的中值hm,并把其放到該矩陣最后新增一列,則H1(fm,1)矩陣變?yōu)镠1(fm,hm)。二進制哈希構(gòu)造方法為:用參數(shù)矩陣中的上一行數(shù)據(jù)減下一行數(shù)據(jù),若大于0,則該行數(shù)據(jù)變?yōu)?,否則為0。即
(3)
步驟5:哈希匹配。
對于2個語音片段s1,s2,H1記為語音信號x1的感知哈希值,H2記為語音信號x2的感知哈希值,研究采用歸一化漢明距離來度量2段語音信號的相似性。D記為H1,H2的歸一化漢明距離D(:,:),即比特誤碼率(Bit Error Rate,BER),表示感知哈希序列錯誤比特數(shù)與總比特數(shù)的比值,計算公式為:
(4)
式中,N為感知哈希序列的總長度;i=1,2,…,fm。對語音感知哈希系統(tǒng)的性能進行評價,可以用以下的假設(shè)性檢驗來描述:
P0:若s1,s2感知相同,則D(H1,H2)≤τ;
P1:若s1,s2感知不同,則D(H1,H2)>τ,
τ為感知認證閾值,通過設(shè)置匹配閾值τ的大小,比較語音段s1,s2的感知哈希序列的數(shù)學(xué)距離。若2條語音段的數(shù)學(xué)距離D(H1,H2)≤τ,則認為2個語音段s1,s2的感知內(nèi)容相同,認證通過;否則,認證不通過。
實驗中所用的語音數(shù)據(jù)庫是TTS(Text to Speech)和TIMIT(Texas Instruments and Massachusetts Institute of Technology)中的語音,由英文男女、中文男女錄制的不同內(nèi)容語音所組成,采樣精度為16 bit、采樣頻率為16 kHz,長度為4 s的wav格式語音段,共1 280段,單聲道。其中英文600段,中文680段。實驗硬件平臺為:Intel(R) Core(TM) i5-3337U CPU,1.80 GHz,內(nèi)存4 G。軟件環(huán)境是Win7下的Matlab R2014a。
通過對1 280條語音段進行感知哈希值的兩兩匹配,得到818 560個BER數(shù)據(jù)。這些BER數(shù)據(jù)之間的分布規(guī)律如圖2所示。可以看出,不同語音的BER值的概率分布與標準正態(tài)分布的概率曲線幾乎在同一條直線上,所以本文提出的算法所計算得到的感知哈希的數(shù)學(xué)距離值近似服從正態(tài)分布。
圖2 BER分布規(guī)律
為了進一步驗證實驗的正確性,計算了算法的誤識率(False Accept Rate,F(xiàn)AR):
(5)
式中,τ為感知認證閾值;μ為BER均值;δ為BER方差;x為誤識率。不同算法在不同閾值下的FAR值如表1所示。
表1 不同閾值下的FAR值
τ文獻[17]文獻[18]本文算法0.102.94×10-211.48×10-223.19×10-300.151.14×10-161.05×10-171.67×10-230.201.11×10-121.73×10-131.11×10-170.252.75×10-096.75×10-109.56×10-130.301.68×10-066.25×10-071.08×10-8
感知哈希算法的FAR值越低,說明感知哈希算法的區(qū)分性越好。從表1可以看出,本文提出的語音感知哈希認證算法FAR好于文獻[17-18],主要是因為所提取的語音短時自相關(guān)感知特征更能表征語音信號。當(dāng)設(shè)置匹配閾值τ=0.3時,每108個語音片段大約有1個被誤識,表明本文算法具有較強的抗碰撞能力,即具有良好的區(qū)分性,能夠滿足語音內(nèi)容的認證要求。
通常,音頻信號經(jīng)過一些增加減小音量、濾波、壓縮和重采樣等操作處理后,其在音頻信號中的數(shù)字表示所產(chǎn)生的特定改變不影響內(nèi)容表達。感知哈希的魯棒性是指原始語音數(shù)據(jù)與其通過內(nèi)容保持操作處理后的語音之間的BER小于預(yù)設(shè)閾值,魯棒性實驗需要對原始語音段和其內(nèi)容保持操作之間的BER進行分析,所用的內(nèi)容保持操作類型共有9種,具體如表2示。
表2 內(nèi)容保持操作種類
操作手段操作方式簡稱音量調(diào)節(jié)1音量降低50%V.↓音量調(diào)節(jié)2音量增大50%V.↑巴特沃斯濾波12階低通濾波,截止頻率3.4 kHzB.WFIR濾波12階低通濾波,截止頻率3.4 kHzF.I.R重采樣1采樣頻率下降至8 kHz,再上升至16 kHzR.8→16重采樣2采樣頻率上升至32 kHz,再下降至16 kHzR.32→16窄帶噪聲30 dB窄帶高斯噪聲,中心頻率分布在0~4 kHzW.NMP3_32kMP3編碼后恢復(fù),碼率為32 kHzM.32MP3_192kMP3編碼后恢復(fù),碼率為192 kHzM.192
本文提出的基于短時自相關(guān)的語音感知哈希認證算法與文獻[17-18]中提出的方法,經(jīng)過表2所列出的內(nèi)容保持操作后的1 280條語音片段的感知哈希值與原始數(shù)據(jù)的感知哈希值進行數(shù)學(xué)距離計算,在執(zhí)行每個內(nèi)容保持操作實驗時計算平均BER,對比結(jié)果如表3所示。
表3 平均比特誤碼率比較
操作類型文獻[17]文獻[18]本文算法均值最大值均值最大值均值最大值V.↓0.038 50.109 00.004 00.072 20.000 40.016 1V.↑0.060 40.146 60.025 60.105 60.011 60.072 3B.W0.078 00.191 70.142 20.250 00.105 70.212 9F.I.R0.085 40.184 20.161 50.258 30.121 40.249 0R.8→160.003 20.030 10.001 20.019 40.000 20.008 0R.32→160.042 30.161 70.009 80.075 00.000 80.016 1G.N0.433 90.569 40.260 60.519 50.058 10.257 0M.320.276 10.361 90.021 80.072 20.030 20.075 7M.1920.260 00.302 50.003 50.038 90.001 10.015 9
從表3可以看出,本文提出的語音感知哈希認證算法對9種內(nèi)容操作手段的魯棒性整體好于文獻[17-18],并且本文算法的BER均值都較小,魯棒性很強,能夠較好地滿足認證需求。
和區(qū)分性分析類似,語音認證系統(tǒng)常用誤拒率(False Reject Rate,F(xiàn)RR)用來評價感知哈希算法的魯棒性,它表示感知相同的語音內(nèi)容被系統(tǒng)判定為感知不同的概率,計算公式如式(6)所示,其中μ表示BER的均值,δ表示BER的標準差,τ表示BER閾值:
(6)
為了對算法整體的魯棒性和區(qū)分性進行說明,繪制了FAR-FRR曲線進行進一步說明,對1 280個語音段進行感知哈希值的兩兩對比,得到了818 560個BER數(shù)據(jù),再根據(jù)表2所述內(nèi)容保持操作得到BER,獲得FAR和誤拒率(False Reject Rate,F(xiàn)RR),繪制出FAR-FRR曲線,對比文獻[18]FAR-FRR曲線的結(jié)果如圖3所示。
圖3 本文算法與文獻[11]的FAR-FRR曲線比較
從圖3(a)可以看出,影響區(qū)分性的FAR和魯棒性的FRR的值有明顯的判決空間,說明本文算法同時具有良好的區(qū)分性和魯棒性,能夠準確地識別經(jīng)過內(nèi)容保持操作的語音和不同內(nèi)容的語音,很好地平衡了算法的區(qū)分性和魯棒性。對比圖3(b),文獻[18]在圖中發(fā)生了交叉,表明文獻[18]算法不能很好地解決區(qū)分性和魯棒性之間的平衡,這是由于文獻[18]所提算法對添加窄帶高斯白噪聲操作的魯棒性較差,并且由于本文FAR-FRR曲線沒有明顯的判決空間,設(shè)置一定的閾值就能很好地將這2種操作區(qū)分開。
本文提出了一種基于短時自相關(guān)的語音感知哈希認證算法,該算法提取了語音信號的短時自相關(guān)特征作為感知特征來構(gòu)造哈希值,通過計算哈希值之間的數(shù)學(xué)距離,對語音內(nèi)容進行認證,并著重分析了算法的魯棒性和區(qū)分性,通過實驗分析可知,本文算法具有較強的區(qū)分性,能夠較好地對不同內(nèi)容語音進行認證,同時本文算法的魯棒性表現(xiàn)也非常突出,并且本文算法的FAR-FRR曲線之間有明顯的判決區(qū)間,很好地平衡了算法的區(qū)分性和魯棒性,可以滿足語音在實時通信環(huán)境下語音認證要求。但缺點是認證效率一般,接下來需要進一步提升認證效率。