基于語(yǔ)音頻譜融合特征的手機(jī)來(lái)源識(shí)別

2018-05-21 01:01:51裴安山王讓定嚴(yán)迪群

計(jì)算機(jī)應(yīng)用 2018年3期

裴安山，王讓定，嚴(yán)迪群

(寧波大學(xué) 信息科學(xué)與工程學(xué)院，浙江寧波 315211)

0 引言

隨著互聯(lián)網(wǎng)的不斷發(fā)展和便攜式智能終端的快速普及，人們能夠更加方便、快捷地借助于各種便攜設(shè)備在網(wǎng)絡(luò)上與他人分享自己的所見(jiàn)所聞所感，但是隨著數(shù)字多媒體編輯軟件的普及，以及其功能的強(qiáng)大和操作的簡(jiǎn)單化，編輯、修改以及發(fā)布多媒體信息也變得越來(lái)越簡(jiǎn)單有趣。盡管大多數(shù)人對(duì)多媒體的編輯只是為了增強(qiáng)表現(xiàn)效果，但也不乏有人無(wú)意或是有意，甚至惡意地傳播、發(fā)布經(jīng)過(guò)精心篡改或偽造的多媒體數(shù)據(jù)[1]。

音頻來(lái)源取證是數(shù)字音頻被動(dòng)取證中的一個(gè)重要環(huán)節(jié)，目的是通過(guò)對(duì)獲取的錄音文件進(jìn)行信號(hào)處理與分析，利用能表征錄制設(shè)備及其特性的信息，實(shí)現(xiàn)對(duì)錄音來(lái)源的辨識(shí)。是對(duì)音頻來(lái)源的真實(shí)性、完整性等進(jìn)行驗(yàn)證的，是多媒體取證技術(shù)的重要研究?jī)?nèi)容，其領(lǐng)域隨著學(xué)者們?nèi)找娴年P(guān)注獲得了重大的研究進(jìn)展[2-7]。裴安山等[8]首次將設(shè)備的本底噪聲應(yīng)用于語(yǔ)音的設(shè)備來(lái)源取證研究，將在靜音段上采用譜減法去除環(huán)境噪聲之后的噪聲認(rèn)為是廣義的設(shè)備本底噪聲，在此基礎(chǔ)上提出頻譜的對(duì)數(shù)譜特征作為分類(lèi)特征，在CKC-SD(CKC Speech Database)語(yǔ)音數(shù)據(jù)庫(kù)上識(shí)別準(zhǔn)確率達(dá)到99%。之后考慮到本底噪聲的提取較大程度上受環(huán)境噪聲的影響，該特征的實(shí)際場(chǎng)景的通用性偏弱，提出在非語(yǔ)音段上提取特征表征設(shè)備特有痕跡的方法，該方法減少了利用譜減法去除環(huán)境噪聲的工作，同時(shí)考慮到非語(yǔ)音段包含與語(yǔ)音段相同的設(shè)備痕跡信息，具有不會(huì)受到說(shuō)話人、文本、情感等可能因素的干擾的優(yōu)點(diǎn)，將非語(yǔ)音段上去離散余弦變換(Discrete Cosine Transform, DCT)的梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficients, MFCC)作為分類(lèi)特征，采用均值歸一化方法對(duì)提取的特征進(jìn)行歸一化，最后采用LIBSVM分類(lèi)器對(duì)TIMIT翻錄語(yǔ)音數(shù)據(jù)庫(kù)和CKC-SD語(yǔ)音數(shù)據(jù)庫(kù)的樣本進(jìn)行分類(lèi)識(shí)別。實(shí)驗(yàn)結(jié)果表明，該算法在23種不同型號(hào)的設(shè)備的識(shí)別實(shí)驗(yàn)中平均識(shí)別率達(dá)到99%[9]。Hanilci等[10]提取錄音文件的MFCC及其一階、二階差分值作為特征向量，用于判斷該錄音文件歸屬何種品牌、何種型號(hào)的手機(jī)。實(shí)驗(yàn)結(jié)果表明，他們?cè)谧越ǖ挠?4種型號(hào)手機(jī)組成的音頻數(shù)據(jù)庫(kù)上能夠達(dá)到96.42%的分類(lèi)準(zhǔn)確率。Kotropoulos[11]使用整個(gè)翻錄TIMIT庫(kù)訓(xùn)練的GMM-UBM(Gaussian Mixture Model-Universal Background Model)構(gòu)建高斯超向量的稀疏表示作為特征時(shí)，測(cè)試采用SRC(Sparse Representation based Classification)、SVM(Support Vector Machine)和NN(Nearest Neighbor)三種分類(lèi)器，對(duì)數(shù)據(jù)庫(kù)中7種品牌21種型號(hào)的手機(jī)實(shí)現(xiàn)了較高的分類(lèi)準(zhǔn)確率。當(dāng)下語(yǔ)音設(shè)備來(lái)源取證的研究大多數(shù)所提的分類(lèi)特征是單一特征，如MFCC特征、頻譜對(duì)數(shù)譜特征等。因?yàn)楫?dāng)下的研究基于的語(yǔ)音數(shù)據(jù)庫(kù)設(shè)備的種類(lèi)和數(shù)量較少，設(shè)備型號(hào)陳舊，導(dǎo)致不同設(shè)備采集語(yǔ)音的差異性較大，相關(guān)特征在手機(jī)來(lái)源識(shí)別中取得了不錯(cuò)的效果，但是當(dāng)語(yǔ)音數(shù)據(jù)庫(kù)中設(shè)備種類(lèi)和數(shù)量達(dá)到一定程度之后，特別是隨著相同品牌不同型號(hào)設(shè)備不斷增加后，相關(guān)特征在手機(jī)來(lái)源識(shí)別中是否依舊能取得不錯(cuò)的效果呢？而基于靜音段的特征雖然有效地避免了語(yǔ)義信息和說(shuō)話人情感等因素的干擾，但是對(duì)環(huán)境噪聲的要求是較高的，當(dāng)環(huán)境噪聲過(guò)大時(shí)，靜音段特征提取的工作難度就增大了。

本文通過(guò)在現(xiàn)下主流的7個(gè)品牌23個(gè)型號(hào)的手機(jī)構(gòu)建的語(yǔ)音庫(kù)上分析不同設(shè)備語(yǔ)音信號(hào)的語(yǔ)譜圖，發(fā)現(xiàn)：不同設(shè)備的頻譜信息不盡相同，不同品牌的設(shè)備差異明顯，可以用頻譜單一特征來(lái)有效地進(jìn)行區(qū)分；而相同品牌不同型號(hào)的設(shè)備雖然存在差異，但較為相似，單一的頻譜特征難以準(zhǔn)確實(shí)現(xiàn)不同品牌手機(jī)的類(lèi)內(nèi)識(shí)別。本文研究了語(yǔ)音頻譜對(duì)數(shù)譜特征、相位譜特征和信息量特征在語(yǔ)音手機(jī)來(lái)源識(shí)別中反映的設(shè)備差異信息，發(fā)現(xiàn)信息量特征和對(duì)數(shù)譜特征分別增大了高頻部分和低頻部分頻率幅度譜的差異分辨度，而相位譜特征反映了設(shè)備語(yǔ)音在相位譜上的差異信息。在此基礎(chǔ)上為了構(gòu)建更好地反映設(shè)備語(yǔ)音差異的特征，提出一種基于頻譜融合特征的手機(jī)來(lái)源識(shí)別方法。實(shí)驗(yàn)結(jié)果表明，語(yǔ)音頻譜融合特征可以作為語(yǔ)音手機(jī)來(lái)源識(shí)別的特征，識(shí)別準(zhǔn)確率優(yōu)于單一的頻譜特征和MFCC特征，且融合特征的泛化能力較單一特征會(huì)更好。文中算法在由德州儀器(Texas Instruments, TI)、麻省理工學(xué)院(Massachusetts Institute of Technology, MIT)和斯坦福研究院(Stanford Research Institute, SRI)合作構(gòu)建的聲學(xué)-音素連續(xù)語(yǔ)音語(yǔ)料庫(kù)(The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus, TIMIT)數(shù)據(jù)庫(kù)和研究所自建的基礎(chǔ)語(yǔ)音數(shù)據(jù)庫(kù)(CKC-SD)上的平均識(shí)別準(zhǔn)確率可以達(dá)到99.96%和99.91%。

1 手機(jī)來(lái)源識(shí)別語(yǔ)音庫(kù)的建立

1.1 手機(jī)設(shè)備的選擇

由于手機(jī)和錄音筆具備體積小易攜帶的特點(diǎn)，很多人在進(jìn)行錄音取證時(shí)常常會(huì)采用。而隨著手機(jī)的快速普及和手機(jī)錄音音質(zhì)的提高，將智能手機(jī)作為錄音取證設(shè)備的人變得越來(lái)越多。本文語(yǔ)音庫(kù)錄制采用的手機(jī)設(shè)備來(lái)自7個(gè)品牌的23款手機(jī)，手機(jī)的信息和標(biāo)簽如表1所示。

表1 實(shí)驗(yàn)手機(jī)的品牌列表以及類(lèi)名Tab. 1 List and specifications of cell-phones

1.2 語(yǔ)音庫(kù)的構(gòu)建

本研究錄制了兩個(gè)語(yǔ)音數(shù)據(jù)庫(kù)。第一個(gè)語(yǔ)音數(shù)據(jù)庫(kù)是對(duì)TIMIT數(shù)據(jù)庫(kù)的語(yǔ)音樣本進(jìn)行回放和重新錄制的TIMIT翻錄語(yǔ)音數(shù)據(jù)庫(kù)，這也是錄音設(shè)備來(lái)源識(shí)別領(lǐng)域構(gòu)建基準(zhǔn)數(shù)據(jù)庫(kù)的典型方法之一。從TIMIT數(shù)據(jù)庫(kù)中選取100個(gè)人(男性50人，女性50人)的1 000個(gè)語(yǔ)音樣本，采用高保真音箱(PhilipsDTM3500)進(jìn)行回放，同時(shí)用設(shè)備列表中所有的設(shè)備一起錄制。共同構(gòu)成每個(gè)手機(jī)擁有1 000個(gè)翻錄語(yǔ)音的數(shù)據(jù)庫(kù)。第二個(gè)數(shù)據(jù)庫(kù)是本研究構(gòu)建的基礎(chǔ)語(yǔ)音數(shù)據(jù)庫(kù)(CKC-SD)。該構(gòu)建的數(shù)據(jù)庫(kù)采集了12個(gè)人(6名男性，6名女性)的語(yǔ)音。每個(gè)人參與兩段語(yǔ)音的錄制，一段是問(wèn)答和主題演講，一段是固定語(yǔ)料的朗讀，錄制時(shí)均要求語(yǔ)速、語(yǔ)調(diào)和音強(qiáng)勻速正常，時(shí)間長(zhǎng)短控制在5 min以上。在相對(duì)安靜的辦公室里，將所有錄音設(shè)備按圓弧形平放在以參錄人員為圓心的辦公桌上，每個(gè)設(shè)備距離參錄人員約為1～1.2 m；為了保證語(yǔ)音錄制具有較好的同步性，由多名同學(xué)同時(shí)控制所有錄音軟件的開(kāi)關(guān)。每臺(tái)設(shè)備均獲得24段語(yǔ)音，為排除錄音開(kāi)始之前人為因素引起的噪聲對(duì)語(yǔ)音樣本的影響，從語(yǔ)音正式開(kāi)始錄制部分進(jìn)行切割，將每段錄音分割成3 s的語(yǔ)音片段，每個(gè)手機(jī)獲取1 000個(gè)語(yǔ)音樣本，這樣就可構(gòu)建23 000個(gè)語(yǔ)音樣本的語(yǔ)音數(shù)據(jù)庫(kù)。

2 頻譜特征分析與設(shè)備來(lái)源識(shí)別

語(yǔ)譜圖又名語(yǔ)音頻譜圖，能簡(jiǎn)潔明了地展示語(yǔ)音樣本的頻譜值在時(shí)間軸上的變化。圖1給出了8個(gè)手機(jī)采集的內(nèi)容為“芝麻開(kāi)門(mén)，我是土豪”的語(yǔ)音的語(yǔ)譜圖的灰度圖。通過(guò)觀察圖1可以看出不同品牌手機(jī)語(yǔ)音的語(yǔ)譜圖存在很大差異。例如，Samsung Galaxy Note2語(yǔ)音信號(hào)的高頻部分語(yǔ)音能量較強(qiáng)；HTC D610t的語(yǔ)譜圖在頻率為4 000 Hz附近有大幅度的下降；iPhone 4s和iPhone 5的語(yǔ)譜圖比較相似，語(yǔ)譜圖在15 000 Hz附近有大幅下降；其他型號(hào)的手機(jī)語(yǔ)譜圖語(yǔ)音能量分布規(guī)律和開(kāi)始大幅下降的頻率界限也不盡相同?？梢缘贸鲞@樣的猜想：即不同品牌手機(jī)的頻譜特征差異較明顯，而相同品牌不同型號(hào)的手機(jī)的語(yǔ)譜圖雖然總體較為相似，但也存在差異。

圖1 相同語(yǔ)音的語(yǔ)譜圖 Fig. 1 Spectrograms of same speech

為了進(jìn)一步研究不同設(shè)備語(yǔ)音頻譜特征的差異，本文提取了語(yǔ)音的頻譜信息量特征。信息量[12]來(lái)源于信息論，它用一個(gè)變量的概率描述不確定問(wèn)題。設(shè)一個(gè)符號(hào)集t={x1,x2,…,xn}，第m個(gè)符號(hào)出現(xiàn)的概率為p(xm)，且p(x1)+p(x2)+…+p(xn)=1，每個(gè)符號(hào)所提供的信息量I=-lbp(xm)，某個(gè)符號(hào)出現(xiàn)的概率越小，則說(shuō)明該符號(hào)攜帶的信息量就越大。頻譜信息量特征的提取過(guò)程為：

首先，對(duì)語(yǔ)音樣本x進(jìn)行分幀處理，并對(duì)第i幀語(yǔ)音進(jìn)行快速傅里葉變換，即:

(1)

傅里葉變換的點(diǎn)數(shù)N=1 024，k=0,1,…,N-1，i=1,2,…,T，T表示總幀數(shù)；對(duì)于第i幀第k個(gè)頻率點(diǎn)的頻率值xi(k)，求其幅值，即:

(2)

然后，求第k點(diǎn)頻率沿時(shí)間軸的統(tǒng)計(jì)平均值x(k)和總的頻率值S(k)，即:

(3)

(4)

求出頻率點(diǎn)k出現(xiàn)的概率P(k)，并得到第k個(gè)頻率點(diǎn)的信息量特征，即:

P(k)=x(k)/S

(5)

I(k)=-lbP(k)

(6)

可以看出每個(gè)頻率點(diǎn)所攜帶的信息量受該點(diǎn)頻率值幅值、沿時(shí)間軸的統(tǒng)計(jì)平均值和頻率值總和的影響，不同頻率值的信息量是不同的，頻率值越小其對(duì)應(yīng)的信息量特征越大。由圖1可以看出語(yǔ)音信號(hào)在高頻部分的能量較低，可得高頻部分的信息量特征值較大，頻譜信息量特征增大了不同設(shè)備高頻部分差異的分辨率。

圖2展示了8款手機(jī)(兩臺(tái)iPhone)的語(yǔ)音樣本的頻譜信息量特征。其具體實(shí)現(xiàn)過(guò)程為：首先提取語(yǔ)音樣本頻譜的信息量特征，然后對(duì)信息量特征值進(jìn)行歸一化，再采用特征尋優(yōu)降維的方法選出區(qū)分性最大的特征子集，最后畫(huà)出所選特征子集的折線圖。可以看出本文所構(gòu)建的頻譜信息量特征在不同品牌的手機(jī)之間有較明顯的差異，雖然相同品牌不同型號(hào)的手機(jī)的特征曲線圖較為相似，但可以發(fā)現(xiàn)第10～20維特征可以完成相同品牌不同型號(hào)的設(shè)備區(qū)分。

圖2 相同語(yǔ)音的頻譜信息量特征 Fig. 2 Spectral information quantity feature of same speech

語(yǔ)音信號(hào)的對(duì)數(shù)譜特征是先對(duì)語(yǔ)音信號(hào)的頻譜幅度譜特征作對(duì)數(shù)運(yùn)算，然后沿時(shí)間軸取統(tǒng)計(jì)平均值所得。對(duì)第k個(gè)頻率點(diǎn)幅值作對(duì)數(shù)運(yùn)算，然后沿時(shí)間軸取統(tǒng)計(jì)平均值得到第k個(gè)頻率點(diǎn)的頻譜對(duì)數(shù)譜特征L(k)，即:

(7)

由式(7)可得，對(duì)數(shù)譜特征的大小與語(yǔ)音信號(hào)頻率值幅值變化成正比，頻率幅值越大，對(duì)應(yīng)的對(duì)數(shù)譜特征的值越大。由圖1可以看出，語(yǔ)音信號(hào)的能量主要集中在低頻部分，因此語(yǔ)音信號(hào)對(duì)數(shù)譜特征在低頻部分的值較大，對(duì)數(shù)譜特征可以有效增加不同設(shè)備語(yǔ)音頻譜低頻部分的差異分辨率。

圖3為8款手機(jī)(兩臺(tái)iPhone)語(yǔ)音樣本對(duì)數(shù)譜特征的折線圖。具體實(shí)現(xiàn)過(guò)程為：先提取對(duì)數(shù)譜特征，然后對(duì)特征值進(jìn)行歸一化，再采用特征尋優(yōu)降維的方法選出區(qū)分性最大的特征子集，最后畫(huà)出所選特征子集的折線圖?？梢钥闯霰疚乃鶚?gòu)建的頻譜對(duì)數(shù)譜特征在不同品牌的手機(jī)之間有較明顯的差異，雖然相同品牌不同型號(hào)的手機(jī)的特征曲線圖相對(duì)較為相似，但是仍然可以在第8～10維發(fā)現(xiàn)明顯差異，作出有效區(qū)分。

圖3 相同語(yǔ)音的頻譜對(duì)數(shù)譜特征 Fig. 3 Spectral logarithmic feature of same speech

頻譜的信息量特征和對(duì)數(shù)譜特征分別有效地增大了不同設(shè)備語(yǔ)音樣本高頻部分和低頻部分的頻譜差異分辨精度，兩組特征都是在語(yǔ)音的頻譜幅度譜特征的基礎(chǔ)上構(gòu)建的，較好地反映了不同設(shè)備在語(yǔ)音幅度譜上不同頻率區(qū)間的差異信息。由于頻譜是由幅度譜和相位譜共同構(gòu)成的，為了提升不同設(shè)備之間的差異分辨精度，本文研究了語(yǔ)音信號(hào)的相位譜特征。其提取過(guò)程如下。

對(duì)語(yǔ)音信號(hào)第i幀求其相位譜特征：

(8)

然后求其第k個(gè)頻率點(diǎn)的相位譜特征沿時(shí)間軸的統(tǒng)計(jì)平均值Ψ(k)，即為本文所提頻譜的相位譜特征：

(9)

圖4是8款手機(jī)(兩臺(tái)iPhone)語(yǔ)音樣本的相位譜特征的折線圖。其具體實(shí)現(xiàn)過(guò)程為：先提取語(yǔ)音信號(hào)的相位譜特征；然后對(duì)該特征沿時(shí)間軸按幀取平均和對(duì)特征值進(jìn)行歸一化；最后采用特征尋優(yōu)降維的方法選出區(qū)分性最大的特征子集并畫(huà)出折線圖?？梢钥闯霾煌放圃O(shè)備的相位譜特征差異明顯，相同品牌不同型號(hào)的手機(jī)設(shè)備的相位譜特征雖然較不同品牌差異小，但可以進(jìn)行分類(lèi)判別，相位譜特征是語(yǔ)音手機(jī)來(lái)源識(shí)別的有效特征。

本文所構(gòu)建的語(yǔ)音信號(hào)的頻譜信息量特征和對(duì)數(shù)譜特征較為全面地反映了不同設(shè)備語(yǔ)音頻譜幅度譜上的差異，構(gòu)建的相位譜特征較好地反映了不同設(shè)備相位譜上的差異。為了更好地反映不同設(shè)備語(yǔ)音樣本頻譜特征之間的差異，本文提出了一種基于頻譜融合特征的語(yǔ)音設(shè)備來(lái)源識(shí)別方法，將以上三組頻譜單一特征的初始特征串聯(lián)起來(lái)，每個(gè)語(yǔ)音樣本得到一個(gè)1 539維的特征，對(duì)樣本初始特征構(gòu)成的特征空間進(jìn)行特征值歸一化和采用最佳優(yōu)先搜索[13]對(duì)特征空間尋優(yōu)降維，特征子集的分類(lèi)效果的好壞是由CfsSubsetEval評(píng)價(jià)函數(shù)評(píng)價(jià)的，主要是考量特征子集的預(yù)測(cè)能力和關(guān)聯(lián)性[14]。預(yù)測(cè)能力是指每個(gè)特征或每個(gè)特征子集的分類(lèi)性能的優(yōu)劣，關(guān)聯(lián)性指的是特征與特征之間的冗余(重復(fù))程度的高低，首選的最優(yōu)化的特征子集是：與分類(lèi)具有高相關(guān)性，同時(shí)特征與特征之間相關(guān)度較低的特征子集。最后將所得的最優(yōu)特征子集作為本文所提的特征。語(yǔ)音頻譜融合特征的構(gòu)建和基于該特征的手機(jī)來(lái)源識(shí)別的流程如以下步驟所示。

步驟1 對(duì)語(yǔ)音樣本進(jìn)行采樣分幀和加窗；

步驟2 對(duì)每幀語(yǔ)音進(jìn)行快速傅里葉變換得到語(yǔ)音的頻譜xi(k)；

步驟3 對(duì)頻譜取模得到頻譜幅度譜‖xi(k)‖；

步驟4 對(duì)幅度譜按幀取統(tǒng)計(jì)平均，得到平均幅度譜特征x(k)；

步驟5 對(duì)x(k)求信息量特征I(k)；

步驟6 對(duì)‖xi(k)‖求每幀的對(duì)數(shù)譜特征，然后沿時(shí)間軸取統(tǒng)計(jì)平均，得到樣本的對(duì)數(shù)譜特征L(k)；

步驟7 對(duì)xi(k)求每幀的相位譜特征，然后沿時(shí)間軸取統(tǒng)計(jì)平均，得到樣本的相位譜特征Ψ(k)；

步驟8 將每個(gè)樣本的信息量特征I(k)、對(duì)數(shù)譜特征L(k)和相位譜特征Ψ(k)串聯(lián)起來(lái)，構(gòu)成513×3維的初始的頻譜融合特征F(k)；

步驟9 按型號(hào)依次提取構(gòu)建23個(gè)手機(jī)的23×1 000個(gè)語(yǔ)音樣本的初始頻譜融合特征F(k)，構(gòu)成實(shí)驗(yàn)的樣本特征矩陣；

步驟10 采用WEKA平臺(tái)的CfsSubsetEval評(píng)價(jià)函數(shù)和最佳優(yōu)先搜索原則進(jìn)行特征選擇，得到降維后的樣本特征矩陣和每個(gè)樣本的頻譜融合特征Fend(k)；

步驟11 采用基于徑向基核函數(shù)(Radial Basis Function, RBF)的LibSVM分類(lèi)器[15]，利用5折交叉驗(yàn)證方式對(duì)樣本特征選擇后的特征矩陣進(jìn)行模型訓(xùn)練和測(cè)試，實(shí)驗(yàn)中對(duì)懲罰系數(shù)(cost,C)和gamma(γ)的值進(jìn)行了交叉驗(yàn)證尋優(yōu)。

圖4 相同語(yǔ)音的頻譜相位譜特征 Fig. 4 Spectral phase feature of same speech

3 實(shí)驗(yàn)及結(jié)果分析

3.1 頻譜融合特征分析

表2為頻譜融合特征子集(即經(jīng)過(guò)特征選擇后)為57維時(shí)，在TIMIT庫(kù)上，對(duì)23個(gè)不同型號(hào)的手機(jī)的設(shè)備來(lái)源識(shí)別結(jié)果，平均識(shí)別準(zhǔn)確率達(dá)到了99.96%。其中只有HTC D610t的樣本和HTC D820t的樣本分類(lèi)出現(xiàn)誤判，原因可能是兩者屬于同一個(gè)品牌，語(yǔ)音樣本特征的差異性相對(duì)其他品牌和型號(hào)而言較小，所以分類(lèi)更容易誤判，其他型號(hào)手機(jī)的識(shí)別可以達(dá)到較好的識(shí)別效果。

表3給出了頻譜融合特征為46維時(shí)，在CKC-SD庫(kù)上，對(duì)23個(gè)不同型號(hào)的手機(jī)的設(shè)備來(lái)源識(shí)別結(jié)果，平均識(shí)別準(zhǔn)確率達(dá)到了99.91%。iPhone 5s的識(shí)別率最低為98.5%，iPhone 6的識(shí)別率為99.5%，兩款手機(jī)的部分語(yǔ)音樣本誤判為兩者內(nèi)的另一款手機(jī)，其他品牌和型號(hào)的手機(jī)可以實(shí)現(xiàn)無(wú)差錯(cuò)分類(lèi)。可能存在的原因是iPhone品牌內(nèi)部不同型號(hào)的手機(jī)采集的語(yǔ)音所包含的頻譜特征差異度較小，第2章中的語(yǔ)音信號(hào)的頻譜單一特征分析也可以證明這一點(diǎn)。

表2 頻譜融合特征在TIMIT庫(kù)上的識(shí)別準(zhǔn)確率 %Tab. 2 Identification accuracy of spectral fusion feature on TIMIT %

表3 頻譜融合特征在CKC-SD庫(kù)上的識(shí)別準(zhǔn)確率 %Tab. 3 Identification accuracy of spectral fusion feature on CKC-SD %

為了研究頻譜融合特征較語(yǔ)音頻譜單一特征識(shí)別性能的優(yōu)劣，表4給出了對(duì)數(shù)譜特征、相位譜特征和信息量特征在TIMIT庫(kù)和CKC-SD庫(kù)上的實(shí)驗(yàn)結(jié)果?？梢钥闯鰧?duì)數(shù)譜特征和信息量特征在本文所用數(shù)據(jù)庫(kù)上有較好的識(shí)別效果，而相位譜的識(shí)別效果相對(duì)較差，本文所提融合特征的識(shí)別準(zhǔn)確率要優(yōu)于單一特征的識(shí)別準(zhǔn)確率。另外，由表4可得降維后單一特征在TIMIT庫(kù)上的特征維數(shù)和識(shí)別準(zhǔn)確率均略高于CKC-SD庫(kù)，這一規(guī)律與融合特征在兩個(gè)數(shù)據(jù)庫(kù)上的表現(xiàn)相互印證，可以得出本文所構(gòu)建的頻譜單一特征和融合特征在TIMIT庫(kù)上的分類(lèi)性能要略優(yōu)于CKC-SD庫(kù)。

表4 頻譜單一特征的語(yǔ)音設(shè)備來(lái)源識(shí)別結(jié)果Tab. 4 Source cell-phone identification results with spectral single feature

為了直觀研究不同特征對(duì)各設(shè)備識(shí)別準(zhǔn)確率的影響，圖5給出了不同頻譜單一特征在23款不同型號(hào)手機(jī)閉集識(shí)別的準(zhǔn)確率?？梢钥闯鲈赥IMIT庫(kù)上頻譜單一特征的識(shí)別準(zhǔn)確率除HTC品牌以外，基本都優(yōu)于該特征在CKC-SD庫(kù)上的識(shí)別準(zhǔn)確率。三組頻譜特征中對(duì)數(shù)譜特征和信息量特征對(duì)各個(gè)設(shè)備均有較好的識(shí)別準(zhǔn)確率，而相位譜特征在HTC和iPhone上識(shí)別準(zhǔn)確率較差，該特征各設(shè)備的識(shí)別準(zhǔn)確率較另外兩組特征也略差，可能的原因是不同設(shè)備對(duì)語(yǔ)音的影響更多地反映在對(duì)語(yǔ)音幅度增強(qiáng)的程度不同上，頻譜的相位譜信息含有的設(shè)備差異性信息較少。綜合來(lái)看各特征在語(yǔ)音庫(kù)上的主要誤判來(lái)自于iPhone和HTC兩個(gè)品牌的設(shè)備的類(lèi)內(nèi)區(qū)分判別，可能造成此結(jié)果的原因是這兩款設(shè)備的頻譜特征的區(qū)分性相對(duì)較小。

3.2 對(duì)比算法分析

為了綜合考量本文所提的算法，和Hanilci等[10]提出的基于MFCC特征的手機(jī)來(lái)源識(shí)別算法進(jìn)行了比較。文獻(xiàn)[10]的工作，無(wú)論是從特征的選擇還是實(shí)驗(yàn)設(shè)置上，都是十分經(jīng)典和充分的。將該文所提特征在本文所錄制的語(yǔ)音數(shù)據(jù)庫(kù)上實(shí)驗(yàn)，實(shí)驗(yàn)設(shè)置與文獻(xiàn)[10]相同，樣本數(shù)目與本文實(shí)驗(yàn)相同。文獻(xiàn)[10]將48維的MFCC及其一階差分特征作為語(yǔ)音設(shè)備來(lái)源識(shí)別的分類(lèi)特征。表5展示了文獻(xiàn)[10]算法和本文算法在手機(jī)來(lái)源識(shí)別實(shí)驗(yàn)中平均識(shí)別準(zhǔn)確率的對(duì)比。

表5 兩種算法的識(shí)別準(zhǔn)確率對(duì)比 %Tab. 5 Identification accuracy comparison of two algorithms %

從表5可以看出，本文所提算法在平均識(shí)別準(zhǔn)確率方面較文獻(xiàn)[10]算法好，平均識(shí)別準(zhǔn)確率在TIMIT庫(kù)和CKC-SD庫(kù)上分別提高了6.58和5.14個(gè)百分點(diǎn)。可能的原因是：文獻(xiàn)[10]中48維的分類(lèi)特征之中存在冗余特征，其中的冗余的特征可能會(huì)降低特征集的識(shí)別準(zhǔn)確率，而且MFCC特征在提取時(shí)的DCT損失了部分語(yǔ)音信號(hào)的高頻特征信息，而且離散余弦變換(DCT)的降維也無(wú)法保證選取到最優(yōu)的特征子集。而本文算法將1 539維頻譜組合特征作為原始分類(lèi)特征，按照最佳優(yōu)先原則對(duì)原始的組合特征集合進(jìn)行尋優(yōu)降維，將特征選擇得到的最優(yōu)特征子集作為最終的分類(lèi)特征，既有效地降低了特征的維度，降低了計(jì)算復(fù)雜度，又有效地避免了原始特征中冗余特征對(duì)分類(lèi)識(shí)別效果的影響；同時(shí)本文所提的頻譜融合特征既通過(guò)公式放大了語(yǔ)音樣本特征在高頻部分的差異和語(yǔ)音樣本特征在低頻部分的差異，又包含了頻譜的相位譜信息，有效地涵蓋了頻譜特征的大部分信息，并降低了計(jì)算復(fù)雜度，提高了計(jì)算效率。相比文獻(xiàn)[10]算法，該算法有效提高了識(shí)別準(zhǔn)確率。

4 結(jié)語(yǔ)

本文從特征泛化的角度提出了一種手機(jī)來(lái)源識(shí)別的方法，用語(yǔ)音頻譜融合特征表征手機(jī)特有的痕跡信息進(jìn)行分類(lèi)判別。實(shí)驗(yàn)結(jié)果也表明了本文所提的特征可以作為語(yǔ)音手機(jī)來(lái)源識(shí)別的分類(lèi)特征；而且，該特征相比經(jīng)典的基于MFCC特征的手機(jī)來(lái)源識(shí)別算法有更好的識(shí)別效果。該方法應(yīng)用語(yǔ)音頻譜相關(guān)特征進(jìn)行手機(jī)來(lái)源識(shí)別的研究，但是仍然存在一定的局限性，例如沒(méi)有考慮在噪聲攻擊的情況下特征的魯棒性問(wèn)題，還有基準(zhǔn)數(shù)據(jù)庫(kù)的完善和科學(xué)設(shè)置也是一項(xiàng)值得考究的工作，所以在接下來(lái)的工作中會(huì)對(duì)上述問(wèn)題展開(kāi)更加深入的研究。

參考文獻(xiàn)(References)

[1] 胡永健, 劉琲貝, 賀前華. 數(shù)字多媒體取證技術(shù)綜述[J]. 計(jì)算機(jī)應(yīng)用, 2010, 30(3): 657-662.(HU Y J, LIU B B, HE Q H. Survey on techniques of digital multimedia forensics[J]. Journal of Computer Applications, 2010, 30(3):657-662.)

[2] ESKIDERE O. Identifying acquisition devices from recorded speech signals using wavelet based features [J]. Turkish Journal of Electrical Engineering & Computer Sciences, 2015, 24: 1942-1954.

[3] 賀前華, 王志鋒, RUDNICKY A I，等. 基于改進(jìn)PNCC特征和兩步區(qū)分性訓(xùn)練的錄音設(shè)備識(shí)別方法[J]. 電子學(xué)報(bào), 2014,42(1):191-198. (HE Q H,WANG Z F, RUDNICKY A I, et al. A recording device identification algorithm based on improved PNCC feature and two-step discriminative training[J]. Acta Electronica Sinica, 2014, 42(1): 191-198.)

[4] KOTROPOULOS C, SAMARAS S. Mobile phone identification using recorded speech signals [C]// Proceedings of the 2014 19th International Conference on Digital Signal Processing. Piscataway, NJ: IEEE, 2014: 586-591.

[5] ESKIDERE O. Source microphone identification from speech recordings based on a Gaussian mixture model[J]. Turkish Journal of Electrical Engineering & Computer Sciences, 2014, 22(3):754-767.

[6] PANAGAKIS Y, KOTROPOULOS C L. Telephone handset identification by collaborative representations[J]. International Journal of Digital Crime & Forensics, 2013, 5(4):1-14.

[7] HICSONMEZ S, SENCAR H T, AVCIBAS I. Audio codec identification from coded and transcoded audios[J]. Digital Signal Processing, 2013, 23(5):1720-1730.

[8] 裴安山, 王讓定, 嚴(yán)迪群. 基于設(shè)備本底噪聲頻譜特征的手機(jī)來(lái)源識(shí)別[J]. 電信科學(xué), 2017，33(1):85-94.(PEI A S, WANG R D, YAN D Q. Cell-phone origin identification based on spectral features of device self-noise[J]. Telecommunications Science, 2017, 33(1):85-94.)

[9] 裴安山, 王讓定, 嚴(yán)迪群. 基于語(yǔ)音靜音段特征的手機(jī)來(lái)源識(shí)別方法[J]. 電信科學(xué), 2017, 33(7):103-111.(PEI A S, WANG R D, YAN D Q. Source cell-phone identification from recorded speech using non-speech segments[J]. Telecommunications Science, 2017, 33(7):103-111.)

[10] HANILCI C, ERTAS F, ERTAS T, et al. Recognition of brand and models of cell-phones from recorded speech signals[J]. IEEE Transactions on Information Forensics & Security, 2012, 7(2): 625-634.

[11] KOTROPOULOS C L. Source phone identification using sketches of features[J]. IET Biometrics, 2014, 3(2): 75-83.

[12] 沈連豐，葉之慧. 信息論與編碼[M]. 北京: 科學(xué)出版社.2004:12-17. (SHEN L F, YE Z H. Information Theory and Coding[M]. Beijing: Science Press, 2004: 12-17.)

[13] XU L, YAN P, CHANG T. Best first strategy for feature selection [C]// Proceedings of the 9th International Conference on Pattern Recognition. Piscataway, NJ: IEEE, 1988: 706-708.

[14] HALL M A. Correlation-based feature selection for machine learning [D]. Hamilton, New Zealand: The University of Waikato, 1999: 51-74.

[15] 林升梁,劉志. 基于RBF核函數(shù)的支持向量機(jī)參數(shù)選擇[J].浙江工業(yè)大學(xué)學(xué)報(bào),2007,35(2):163-167.(LIN S L, LIU Z. Parameter selection in SVM with RBF kernel function [J]. Journal of Zhejiang University of Technology, 2007, 35(2): 163-167.)

This work is partially supported by the National Natural Science Foundation of China (61672302, 61300055), the Natural Science Foundation of Zhejiang Province (LZ15F020002, LY17F020010), the Ningbo Natural Science Foundation (2017A610123), the Scientific Research Foundation of Ningbo University (XKXL1509, XKXL1503).

PEIAnshan, born in 1992, M. S. candidate. His research interests include multi-media communication, information security, mobile terminal source detection.

WANGRangding, born in 1962, Ph. D., professor. His research interests include multi-media information security, digital forensics.

YANDiqun, born in 1979, Ph. D., associate professor. His research interests include multi-media information security, digital forensics.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放