吳張倩,蘇兆品,2,3,4,武欽芳,張國(guó)富,2,3,4
(1.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230601;2.智能互聯(lián)系統(tǒng)安徽省實(shí)驗(yàn)室(合肥工業(yè)大學(xué)),安徽 合肥 230009; 3.工業(yè)安全與應(yīng)急技術(shù)安徽省重點(diǎn)實(shí)驗(yàn)室(合肥工業(yè)大學(xué)),安徽 合肥 230601; 4.安全關(guān)鍵工業(yè)測(cè)控技術(shù)教育部工程研究中心,安徽 合肥 230601)
隨著視頻、圖像和音頻等各種編輯軟件的普及以及操作的智能化,對(duì)多媒體數(shù)據(jù)進(jìn)行編輯和修改越來(lái)越輕而易舉。用戶可能對(duì)信息進(jìn)行惡意剪切或篡改,在不尊重事實(shí)和他人的基礎(chǔ)上謀取私人利益,從而帶來(lái)潛在的不利因素和惡劣影響。為此,多媒體取證技術(shù)[1]旨在能夠鑒別多媒體數(shù)據(jù)是否經(jīng)過(guò)編輯、篡改,以及識(shí)別和驗(yàn)證多媒體數(shù)據(jù)來(lái)源。
與視頻和圖像相比,音頻取證隱蔽性更強(qiáng),且更容易操作。越來(lái)越多的人在交流、交易協(xié)商時(shí)會(huì)選擇使用語(yǔ)音聊天記錄或手機(jī)錄音取證方式固定曾經(jīng)發(fā)生的客觀事實(shí),以期在出現(xiàn)法律糾紛時(shí)作為證據(jù)進(jìn)行使用。但是,手機(jī)語(yǔ)音是否可以作為有效證據(jù)被法庭采納的一個(gè)先決條件是需要確定其真?zhèn)危鴮?duì)手機(jī)語(yǔ)音的來(lái)源設(shè)備識(shí)別是語(yǔ)音證據(jù)鑒真和形成完備證據(jù)鏈的一個(gè)根本前提,已成為近年來(lái)多媒體取證領(lǐng)域中的一個(gè)研究熱點(diǎn)[1]。
近年來(lái),手機(jī)來(lái)源識(shí)別研究取得了豐碩成果,從對(duì)語(yǔ)音信號(hào)處理對(duì)象的角度,語(yǔ)音信號(hào)可以分為對(duì)整體語(yǔ)音信號(hào)處理和對(duì)非語(yǔ)音部分信號(hào)處理2大類。
有觀點(diǎn)認(rèn)為,利用語(yǔ)音信號(hào)的非語(yǔ)音部分可以降低計(jì)算復(fù)雜度,且能夠排除語(yǔ)音部分的干擾,從而挖掘手機(jī)設(shè)備的本質(zhì)特征。在這方面,Hanilci等[2]采用信息論的方法提取非語(yǔ)音部分的特征,利用最大互信息訓(xùn)練的高斯混合模型來(lái)表示特定設(shè)備的特征。Aggarwal等[3]從噪聲估計(jì)樣本中提取梅爾頻率倒譜系數(shù)MFCC(Mel Frequency Cepstral Coefficient)。Qi等[4]從背景噪聲中提取語(yǔ)音特征,并對(duì)比分析了在不同深度學(xué)習(xí)分類器下的識(shí)別性能。Jin等[5]將從噪聲中提取的光譜形狀特征和光譜分布特征用于手機(jī)來(lái)源識(shí)別。裴安山等[6]將本底噪聲作為手機(jī)的指紋,提出了一種基于本底噪聲的手機(jī)來(lái)源識(shí)別方法。在他們的后續(xù)研究中[7],通過(guò)使用自適應(yīng)端點(diǎn)檢測(cè)算法得到語(yǔ)音的靜音段,然后將靜音段的梅爾頻譜系數(shù)的均值作為分類特征。Baldini等[8]在不同頻率下用非語(yǔ)音聲音刺激內(nèi)置麥克風(fēng),利用手機(jī)內(nèi)置麥克風(fēng)的固有物理特性構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)對(duì)智能手機(jī)進(jìn)行識(shí)別和認(rèn)證。上述針對(duì)非語(yǔ)音部分的研究可以有效降低計(jì)算開(kāi)銷,但完全無(wú)視語(yǔ)音部分,可能會(huì)丟失語(yǔ)音部分包含的一些關(guān)鍵設(shè)備特征,從而影響識(shí)別效果。
因此,主流的研究大都致力于從整體語(yǔ)音信號(hào)中提取特征。特別是最近,Luo等[9]提出了一種新的帶能量描述符BED(Band Energy Descriptor)特征,并使用支持向量機(jī)SVM(Support Vector Machine)進(jìn)行設(shè)備識(shí)別。BED主要利用不同生產(chǎn)商在音頻采集管道上不盡相同,從而產(chǎn)生可用于音頻取證的微小差異。Qin等[10]提出了一種常數(shù)Q變換域CQT(Constant Q Transform)的語(yǔ)音特征,并使用卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)進(jìn)行訓(xùn)練。在更早期,Hanilci等[11]提取MFCC作為設(shè)備特征,并利用SVM作為分類器。緊接著,Hanilci等[12]提出MFCC、線性頻率倒譜系數(shù)、巴克頻率倒譜系數(shù)和線性預(yù)測(cè)倒譜系數(shù)4種不同的聲學(xué)特征,并采用倒譜平均歸一化、倒譜方差歸一化、倒譜均值和方差歸一化3種不同的歸一化技術(shù)分別處理。Zou等[13]利用高斯混合模型-通用背景模型設(shè)計(jì)了一種基于MFCC和功率歸一化倒譜系數(shù)的識(shí)別方法。裴安山等[14]指出不同手機(jī)的語(yǔ)音頻譜特征是不同的,將語(yǔ)音的頻譜信息量、對(duì)數(shù)譜和相位譜特征串聯(lián)構(gòu)成原始融合特征。上述已有方法均是從整體語(yǔ)音信號(hào)中提取特征,從而可以充分挖掘語(yǔ)音信號(hào)中的關(guān)鍵設(shè)備信息,均在手機(jī)來(lái)源識(shí)別上取得了較好的識(shí)別效果,但計(jì)算開(kāi)銷稍大。
總的來(lái)說(shuō),雖然BED+SVM[9]和CQT+CNN[10]等方法在手機(jī)來(lái)源識(shí)別上取得了不錯(cuò)的效果,但是一個(gè)突出的問(wèn)題是,現(xiàn)有研究大都基于理想而又安靜的實(shí)驗(yàn)室環(huán)境,利用純凈語(yǔ)音或添加人工噪聲語(yǔ)音來(lái)進(jìn)行測(cè)試分析,而對(duì)實(shí)際環(huán)境噪聲語(yǔ)音卻鮮有涉及。在音頻取證中,充當(dāng)證據(jù)的手機(jī)語(yǔ)音信號(hào)通常產(chǎn)生于人們交流和交易協(xié)商的生活和工作環(huán)境中,包含了各種自然環(huán)境背景噪聲。特別地,自然環(huán)境背景噪聲復(fù)雜多變,在不同天氣、地點(diǎn),背景噪聲信號(hào)對(duì)手機(jī)語(yǔ)音信號(hào)產(chǎn)生的影響也不同。有時(shí)候,強(qiáng)自然環(huán)境背景噪聲甚至可能會(huì)完全掩蓋設(shè)備本身的噪聲。在對(duì)這些手機(jī)語(yǔ)音進(jìn)行特征提取時(shí),如何降低自然環(huán)境背景噪聲對(duì)手機(jī)設(shè)備本身噪聲的干擾是一個(gè)難點(diǎn)問(wèn)題。當(dāng)自然環(huán)境背景噪聲較小或人工背景噪聲具有一定先驗(yàn)知識(shí)時(shí),傳統(tǒng)方法提取的語(yǔ)音特征,如MFCC、BED和CQT等都可以較好地反映出設(shè)備的噪聲特征。但是,當(dāng)背景噪聲較大且較復(fù)雜的時(shí)候,傳統(tǒng)方法提取的特征不能有效抵抗背景噪聲的干擾, 無(wú)法滿足司法領(lǐng)域的實(shí)際需求,必然導(dǎo)致識(shí)別準(zhǔn)確率下降。因此,如何在實(shí)際環(huán)境噪聲干擾下提取出設(shè)備關(guān)鍵特征,是需要解決的第1個(gè)難點(diǎn)問(wèn)題。此外,SVM和CNN這些分類器沒(méi)有充分利用音頻信號(hào)的時(shí)序特征,在串行信號(hào)的處理上,例如在一個(gè)關(guān)鍵性質(zhì)“記憶力”上很難充分發(fā)揮價(jià)值,因此選取一個(gè)契合時(shí)序信號(hào)的分類器、充分挖掘語(yǔ)音時(shí)序特征是需要解決的第2個(gè)問(wèn)題。
基于上述分析,為了滿足司法領(lǐng)域音頻證據(jù)的鑒真需求,提高實(shí)際環(huán)境噪聲下手機(jī)來(lái)源識(shí)別的準(zhǔn)確率,本文首先利用線性判別分析LDA(Linear Discriminant Analysis)[15]優(yōu)化一個(gè)語(yǔ)音混合特征,并以此混合特征為輸入,基于時(shí)序卷積網(wǎng)絡(luò)TCN(Temporal Convolutional Network)[16]進(jìn)行訓(xùn)練和分類,提出一種基于LDA和TCN的手機(jī)來(lái)源識(shí)別方法,最后基于各種實(shí)際環(huán)境噪聲語(yǔ)音庫(kù)對(duì)所提方法進(jìn)行了大量測(cè)試和驗(yàn)證。
語(yǔ)音信號(hào)的不同特征能從不同側(cè)面反映語(yǔ)音的不同信息,因此可以使用融合特征來(lái)更加全面地表達(dá)語(yǔ)音信號(hào)。本文在已有工作基礎(chǔ)上,通過(guò)大量測(cè)試和分析,選取并嘗試將BED和CQT這2個(gè)特征結(jié)合起來(lái),利用LDA優(yōu)化[15]從混合特征中降維出LQBED(LDA based CQT and BED),以獲得更全面的語(yǔ)音特征信息,從而在整體上提高特征的分辨力。
假設(shè)BED的特征維數(shù)為n,CQT的特征維數(shù)為m,則組合后的特征維數(shù)為n+m。雖然組合特征能更全面地反映語(yǔ)音特征,但特征值維數(shù)較大,其中可能包含很多對(duì)設(shè)備特征沒(méi)有貢獻(xiàn)或者貢獻(xiàn)較小的特征值,即存在一定相關(guān)性或冗余性,會(huì)帶來(lái)巨大的計(jì)算開(kāi)銷,因此需要對(duì)這個(gè)混合特征進(jìn)行降維,去除其中的冗余信息。在機(jī)器學(xué)習(xí)中,LDA[15]是一種典型的模式識(shí)別和降維方法。其基本思想是將高維模式樣本投影到最優(yōu)判別向量空間中,以提取分類信息并壓縮特征空間的維數(shù)。投影后,保證樣本有最大的類間距離和最小的類內(nèi)距離,使得同一類數(shù)據(jù)盡可能緊湊,不同類的數(shù)據(jù)盡可能分散。LDA可以充分利用先驗(yàn)知識(shí),計(jì)算速度快。特別地,當(dāng)數(shù)據(jù)滿足高斯分布時(shí),LDA的降維效果非常顯著,而基于語(yǔ)音信號(hào)的手機(jī)來(lái)源識(shí)別主要是根據(jù)語(yǔ)音信號(hào)中含有的設(shè)備元器件(主要是麥克風(fēng))自身噪聲的微小差異來(lái)進(jìn)行識(shí)別。通常,電路各元器件自身噪聲和相互作用產(chǎn)生的影響主要就是高斯噪聲。因此,本文選擇LDA對(duì)混合特征進(jìn)行降維,提取出LQBED特征。
基于LDA的LQBED語(yǔ)音特征提取過(guò)程如圖1所示,具體描述如下所示:
步驟1針對(duì)每一類別,計(jì)算305維特征的均值向量得到ai,計(jì)算所有樣本的均值向量a。
步驟2構(gòu)造類間散布矩陣SB和類內(nèi)散布矩陣SW:
(1)
(2)
步驟5取前k大的奇異值對(duì)應(yīng)的特征向量組成投影矩陣W。k是輸出特征的維數(shù),最大為特征類別的個(gè)數(shù)減1,本文設(shè)置為46。
步驟6計(jì)算樣本集中每個(gè)樣本x在新的低維空間的投影Z=WTx。
Figure 1 Procedure of extracting the LQBED feature圖1 LQBED過(guò)程提取過(guò)程
Figure 2 t-SNE visualization of the LQBED feature圖2 LQBED分類能力的t-SNE可視化
Figure 3 TCN structure used for source cell-phone identification圖3 用于手機(jī)來(lái)源識(shí)別的TCN結(jié)構(gòu)
為了更加直觀地表征LQBED的分類能力,圖2給出了LQBED分類能力的t-SNE(t-distributed Stochastic Neighbor Embedding)可視化結(jié)果[17]。t-SNE 方法不僅能夠關(guān)注原有數(shù)據(jù)的局部性特征,而且也保留了原始數(shù)據(jù)的全局特性,可以全面反映特征的分類能力。從圖2可以看出,簇與簇之間的區(qū)別非常明顯,這是因?yàn)長(zhǎng)QBED保留了CQT和BED中的關(guān)鍵信息,同時(shí)又去除了不必要的冗余,減少了冗余信息的干擾,從而可以達(dá)到較好的可分性,也為后續(xù)的訓(xùn)練和分類節(jié)省了計(jì)算開(kāi)銷。
語(yǔ)音信號(hào)具有典型的時(shí)間序列性,在機(jī)器學(xué)習(xí)中,循環(huán)神經(jīng)網(wǎng)絡(luò)通常被列為解決序列問(wèn)題的首選工具。Bai等[16]研究成果表明,作為CNN家族中的一個(gè)成員,時(shí)序卷積網(wǎng)絡(luò)TCN在各種領(lǐng)域的測(cè)試數(shù)據(jù)上,都得到了比傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)更為準(zhǔn)確的結(jié)果,成為新的序列數(shù)據(jù)分析方面的佼佼者。
TCN主體包括一維全卷積網(wǎng)絡(luò)和因果卷積,同時(shí)采用擴(kuò)張卷積和殘差模塊來(lái)獲取較長(zhǎng)歷史信息,非常契合音頻信號(hào)的時(shí)序特性。此外,由于擴(kuò)張卷積和殘差模塊的獨(dú)特特性,可以構(gòu)建更深層的網(wǎng)絡(luò),從而可以提取更多的歷史語(yǔ)音信息而不必?fù)?dān)心梯度消失和梯度爆炸。因此,本文根據(jù)音頻信號(hào)特征,選取并設(shè)計(jì)相應(yīng)的TCN作為分類器,來(lái)進(jìn)一步學(xué)習(xí)深度語(yǔ)音特征,然后利用深度特征進(jìn)行手機(jī)來(lái)源的識(shí)別。
本文設(shè)計(jì)的用于手機(jī)來(lái)源識(shí)別的TCN結(jié)構(gòu)如圖3所示。為了保證技術(shù)的可重復(fù)性,下面將詳細(xì)介紹框架中的一些具體技術(shù)細(xì)節(jié)。
首先,整體架構(gòu)如圖3a所示。輸入為語(yǔ)音的LQBED特征,對(duì)于T幀的語(yǔ)音信號(hào),zt∈R46是從語(yǔ)音第t幀中提取的特征。輸入Z∈RT×46是所有幀LQBED特征的串聯(lián)。輸入特征經(jīng)過(guò)一維卷積過(guò)濾后進(jìn)入殘差模塊進(jìn)一步學(xué)習(xí):
Y1=σ1(W1·Z0)
(3)
其中,Z0是網(wǎng)絡(luò)最初的輸入特征,W1是第一層網(wǎng)絡(luò)需要學(xué)習(xí)的參數(shù),σ1是非線性激活函數(shù)tanh。
其次,在TCN架構(gòu)中引入的殘差模塊共包括3個(gè),每一個(gè)殘差模塊組成相同,如圖3b所示。每個(gè)殘差模塊深層網(wǎng)絡(luò)被分解成若干個(gè)殘差學(xué)習(xí)單元Res_unit,每一個(gè)Res_unit中的卷積核個(gè)數(shù)是128。在每一個(gè)殘差模塊中,本文采用擴(kuò)張卷積,其中最關(guān)鍵的參數(shù)為擴(kuò)張率(d)在連續(xù)多個(gè)Res_unit中以2的指數(shù)形式增加,即d=2n,n=0,1,2,3,4,從而能夠在不顯著增加參數(shù)數(shù)量的情況下擴(kuò)大感受野。在TCN中,每個(gè)Res_unit的輸出通過(guò)添加到下一個(gè)Res_unit的輸入而簡(jiǎn)單合并。令Yl代表第l層Res_unit的輸出,則:
Yl=Yl-1+F(Wl,Yl-1)
(4)
其中,Wl是第l層Res_unit需要學(xué)習(xí)的參數(shù),F(xiàn)是在Res_unit中的非線性變換。
此外,每個(gè)Res_unit的具體結(jié)構(gòu)如圖3c所示。將輸入信號(hào)進(jìn)行卷積之后分別利用不同的激活函數(shù)(Sigmoid、tanh)進(jìn)行線性變換,并將結(jié)果相乘。Sigmoid的值在0~1,與tanh相乘,相當(dāng)于給每一維特征加權(quán),提高學(xué)習(xí)到的特征性能和模型泛化能力。然后再次經(jīng)過(guò)一維卷積和tanh激活函數(shù)之后輸出:
F(Wl,Yl-1)=
σ1(Wl2·(σ1(Wl1·Yl-1)·σ2(Wl1·Yl-1)))
(5)
其中,σ2是Sigmoid非線性激活函數(shù),Wl1和Wl2分別代表第l層Res_unit中第1層conv和第2層conv的參數(shù),Wl=Wl1+Wl2。在經(jīng)過(guò)N個(gè)Res_unit的學(xué)習(xí)后,累加不同輸出,經(jīng)過(guò)殘差模塊3非線性變換(ReLU函數(shù))后得到Y(jié)N:
(6)
YN+1=σ3(WN+1·YN)
(7)
YN+2=WN+2·YN+1
(8)
式(6)中,第1個(gè)Res_unit的輸出是Y2,TCN中的所有后續(xù)Res_unit均要在Y1的基礎(chǔ)上進(jìn)行計(jì)算。本文利用網(wǎng)絡(luò)學(xué)習(xí)不同語(yǔ)音信號(hào)中有區(qū)別的語(yǔ)音特征, 整個(gè)模型的表示能力在很大程度上取決于第1層網(wǎng)絡(luò)參數(shù)W1確定的Y1。在圖3a中,本文在殘差模塊之后又添加了2層卷積層,即式(7)和式(8)。
對(duì)于預(yù)測(cè),本文應(yīng)用全局平均池化,將數(shù)據(jù)由三維降到二維,減少訓(xùn)練參數(shù)的同時(shí),提高模型的泛化能力,最后附加一個(gè)神經(jīng)元數(shù)量等于類數(shù)量的Softmax層。
(9)
YN+3=GlobalMaxPooling1d(YN+2)
(10)
需要指出的是,圖3的整體網(wǎng)絡(luò)中還多次利用了加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練的BatchNorm算法[18],以提高收斂速度和穩(wěn)定性。
為了測(cè)試本文所提方法在自然環(huán)境噪聲下的魯棒性,本節(jié)首先構(gòu)建了一個(gè)具有實(shí)際環(huán)境噪聲的語(yǔ)音數(shù)據(jù)庫(kù)。該語(yǔ)音數(shù)據(jù)庫(kù)由來(lái)自表1所示的10個(gè)品牌、47種型號(hào)手機(jī)設(shè)備的MP3格式的音頻信號(hào)組成,采樣率為44 100 Hz或48 000 Hz,比特率為64 kbps或128 kbps。每種型號(hào)下的手機(jī)語(yǔ)音信號(hào)均收錄于不同性別的人在不同生活噪聲環(huán)境下的語(yǔ)音(包括日常對(duì)話、電影對(duì)話、無(wú)線電廣播等)。
Table 1 Model and ID of each mobile phone表1 實(shí)驗(yàn)手機(jī)的品牌和型號(hào)
本文將每種型號(hào)收錄到的語(yǔ)音信號(hào)平均分割成3 s,最終每種型號(hào)的手機(jī)共收集700條語(yǔ)音片段,其中600條用于訓(xùn)練,其余100條用于測(cè)試,從而構(gòu)建了一個(gè)包含32 900條語(yǔ)音樣本的語(yǔ)音數(shù)據(jù)庫(kù)。其中,訓(xùn)練庫(kù)包括28 200條語(yǔ)音,測(cè)試庫(kù)包括4 700條語(yǔ)音。本文涉及到的相關(guān)實(shí)驗(yàn)均是在該語(yǔ)音數(shù)據(jù)庫(kù)上進(jìn)行測(cè)試和分析。
對(duì)于TCN,訓(xùn)練周期是一個(gè)關(guān)鍵參數(shù)。本文經(jīng)過(guò)大量的測(cè)試發(fā)現(xiàn),當(dāng)訓(xùn)練周期達(dá)到30時(shí)TCN的精度和損失基本不變。因此,為了保證充分的學(xué)習(xí),本文最終將訓(xùn)練周期設(shè)定為30,網(wǎng)絡(luò)學(xué)習(xí)率設(shè)置為0.01,損失函數(shù)為Categorical Crossentropy。其他的一些參數(shù)已在圖3的網(wǎng)絡(luò)結(jié)構(gòu)中給出。
為了充分評(píng)估所提方法的性能,本文引入如下4種在機(jī)器學(xué)習(xí)中常用性能指標(biāo)[6]:
(1)準(zhǔn)確率(Accuracy):使用最普遍也是最直觀的性能指標(biāo),表示預(yù)測(cè)正確的樣本占所有樣本的比例,表示一個(gè)分類器的區(qū)分能力。
(2)召回率(Recall):指在所有實(shí)際為正例的樣本中,被預(yù)測(cè)為正例的樣本比例。
(3)精確率(Precision):指在所有被分類為正例的樣本中,真正是正例的比例。
(4)F1分?jǐn)?shù)(F1-score):為精確率和召回率的調(diào)和平均數(shù)。
為了驗(yàn)證LDA從混合特征中提取LQBED的有效性,第1個(gè)實(shí)驗(yàn)將對(duì)比分析不同的降維算法。在深度學(xué)習(xí)中,除了LDA,常用的降維算法還有主成分分析PCA(Principal Component Analysis)、獨(dú)立成分分析ICA(Independent Component Analysis)、因子分析FC(Factor Analysis)和局部線性嵌入LLE(Locally Linear Embedding)等[19],不同的降維算法適用不同的應(yīng)用場(chǎng)景。
表2給出了基于TCN和不同降維算法下得到的平均識(shí)別準(zhǔn)確率。由表2可以看出,LDA降維之后獲得的識(shí)別性能最佳,尤其比不降維還略有提升。這是因?yàn)?,LDA可以充分利用先驗(yàn)知識(shí),計(jì)算速度快,特別是當(dāng)數(shù)據(jù)滿足高斯分布的時(shí)候效果顯著,而語(yǔ)音信號(hào)中含有的設(shè)備噪聲主要就是高斯噪聲。
為了驗(yàn)證本文采用的LQBED特征的有效性,本節(jié)將LQBED與性能較好的BED和CQT進(jìn)行對(duì)比分析?;诒?所示的47種不同手機(jī)型號(hào),在TCN識(shí)別框架中檢測(cè)上述3種特征的性能。
Table 2 Average accuracies under different dimensionality reduction algorithms表2 不同降維算法下得到的平均識(shí)別準(zhǔn)確率
圖4給出了3種特征在47種手機(jī)型號(hào)(對(duì)應(yīng)1~47)上召回率、精確率和F1分?jǐn)?shù)結(jié)果??梢钥闯?,在圖4a中,除了ID=8和ID=23,LQBED在其余不同ID上的召回率值均優(yōu)于BED和CQT的。在圖4b中,除了ID=9,ID=13和ID=18,LQBED在其余不同ID上的精確率值都要好于BED和CQT的。在圖4c中,除了ID=8和ID=23,LQBED在其余不同ID上的F1分?jǐn)?shù)值均好于BED和CQT的。雖然在上述3個(gè)指標(biāo)上,LQBED在少數(shù)幾個(gè)型號(hào)手機(jī)的數(shù)據(jù)上的表現(xiàn)不盡人意,但從整體上來(lái)看,LQBED優(yōu)勢(shì)明顯,在絕大多數(shù)型號(hào)的手機(jī)上,LQBED在召回率、精確率、F1分?jǐn)?shù)3個(gè)指標(biāo)上的值都能接近1。
Figure 4 Experimental results of different features on different metrics圖4 不同特征在不同指標(biāo)上的實(shí)驗(yàn)結(jié)果
此外,表3給出了基于TCN和3種特征在47種手機(jī)型號(hào)數(shù)據(jù)上的平均識(shí)別率??梢钥闯觯谙嗤腡CN框架,LQBED平均識(shí)別率為99.82%,好于BED和CQT的平均識(shí)別率,分別提升了0.29和0.46個(gè)百分點(diǎn),這意味著LQBED特征進(jìn)一步降低了錯(cuò)判率,這在司法領(lǐng)域?qū)嶋H應(yīng)用中顯得尤為重要。究其原因,LQBED保留了CQT和BED中的關(guān)鍵信息,同時(shí)又去除了不必要的冗余,減少了冗余信息尤其是環(huán)境噪聲的干擾,可在一定程度上提高TCN的學(xué)習(xí)效率。
Table 3 Average accuracies under different features表3 不同特征下得到的平均識(shí)別準(zhǔn)確率
基于構(gòu)建的實(shí)際環(huán)境噪聲下的手機(jī)語(yǔ)音數(shù)據(jù)庫(kù),本節(jié)將所提的基于LQBED和TCN的手機(jī)來(lái)源識(shí)別方法(后稱LQBED+TCN),與文獻(xiàn)[9,10]中最新的BED+SVM和CQT+CNN方法進(jìn)行對(duì)比實(shí)驗(yàn)分析。
圖5給出了3種識(shí)別方法在47種型號(hào)手機(jī)數(shù)據(jù)上召回率、精確率和F1分?jǐn)?shù)結(jié)果。可以看出,在圖5a中,在ID=8時(shí),本文所提的LQBED+TCN的召回率值好于CQT+CNN的,但略差于BED+SVM的;在ID=23時(shí),LQBED+TCN的召回率值與BED+SVM的不相上下,均略差于CQT+CNN的;但是,LQBED+TCN在其余不同ID上的召回率值均明顯優(yōu)于BED+SVM和CQT+CNN的。在圖5b中,在ID=9時(shí),LQBED+TCN的精確率值略差于CQT+CNN的,但明顯好于BED+SVM的;在ID=11時(shí),LQBED+TCN的精確率值好于CQT+CNN的,略差于BED+SVM的;在ID=13和ID=18時(shí),LQBED+TCN的精確率值與CQT+CNN的相當(dāng),均略差于BED+SVM的。不過(guò),需要指出的是,LQBED+TCN在其余不同ID上的精確率值都要顯著好于BED+SVM和CQT+CNN的。在圖5c中,在ID=8時(shí),3種方法的F1分?jǐn)?shù)值旗鼓相當(dāng);在ID=13時(shí),LQBED+TCN的F1分?jǐn)?shù)值與CQT+CNN的不相上下,均略差于BED+SVM的;在ID=23時(shí),LQBED+TCN的F1分?jǐn)?shù)值與BED+SVM的相當(dāng),均略差于CQT+CNN的。但是,LQBED+TCN在其余不同ID上的F1分?jǐn)?shù)值都要明顯好于BED+SVM和CQT+CNN的。從整體上來(lái)看,在絕大多數(shù)的手機(jī)ID上,LQBED+TCN在召回率、精確率和F1分?jǐn)?shù)3個(gè)指標(biāo)上的值都非常接近1,平均召回率分別提高了0.45和0.55個(gè)百分點(diǎn),平均精確率分別提高了0.41和0.57個(gè)百分點(diǎn),平均F1分?jǐn)?shù)分別提高了0.49和0.55個(gè)百分點(diǎn)。
Figure 5 Experimental results of different identification methods on different metrics圖5 不同識(shí)別方法在不同指標(biāo)上的實(shí)驗(yàn)結(jié)果
此外,表4給出了不同識(shí)別方法在47種型號(hào)手機(jī)數(shù)據(jù)上的平均識(shí)別準(zhǔn)確率。可以看出,本文LQBED+TCN方法的平均識(shí)別率最高,達(dá)到了99.82%,相比BED+SVM和CQT+CNN分別提高了0.44和0.54個(gè)百分點(diǎn)。而且,需要特別指出的是,與表3中的BED+TCN和CQT+TCN相比,BED+SVM和CQT+CNN的性能均有所下降。而且,與LQBED+TCN相比,LQBED+SVM和LQBED+CNN的性能也稍有下降。上述實(shí)驗(yàn)結(jié)果表明了本文選取和設(shè)計(jì)TCN用于手機(jī)來(lái)源識(shí)別的優(yōu)勢(shì),LQBED+TCN獲得了更高的識(shí)別準(zhǔn)確率,進(jìn)一步降低了出錯(cuò)率。這是因?yàn)?,語(yǔ)音信號(hào)具有典型的時(shí)間序列性,而TCN采用的一維卷積是在時(shí)間維度上進(jìn)行訓(xùn)練和學(xué)習(xí),更加有利于捕捉時(shí)序上的依賴關(guān)系。
Table 4 Average accuracies of different identification methods表4 不同識(shí)別方法的平均識(shí)別準(zhǔn)確率
最后,為了更加全面直觀地反映LQBED+TCN的性能,圖6給出了LQBED+TCN的詳細(xì)混淆矩陣[20]?;煜仃囍械拿恳恍写碓擃悩颖镜念A(yù)測(cè)結(jié)果,不同位置的值代表被預(yù)測(cè)成相應(yīng)ID的個(gè)數(shù),可以非常容易地顯示出多個(gè)類別是否有混淆,即一個(gè)類別被預(yù)測(cè)成另一個(gè)類別。由圖6可以看出,LQBED+TCN在絕大部分型號(hào)的手機(jī)數(shù)據(jù)上的識(shí)別準(zhǔn)確率均達(dá)到了100%,最低準(zhǔn)確率也有93%。在47個(gè)手機(jī)ID上,只有9個(gè)ID上有分類錯(cuò)誤,其余ID全部分類正確,且除ID=7外其余ID上的識(shí)別率均不低于97%。
Figure 6 Confusion matrix obtained by LQBED+TCN圖6 LQBED+TCN的混淆矩陣結(jié)果
上述實(shí)驗(yàn)結(jié)果表明,LQBED+TCN提升了在實(shí)際環(huán)境噪聲下的手機(jī)來(lái)源識(shí)別性能,對(duì)于在司法領(lǐng)域的語(yǔ)音證據(jù)鑒真的應(yīng)用更有實(shí)際價(jià)值。究其原因,LQBED+TCN可在一定程度上獲得更加全面的語(yǔ)音特征,利用LDA去除了其冗余性,降低了說(shuō)話人(年齡、性別等)、場(chǎng)景、內(nèi)容(日常對(duì)白、唱歌、廣播等)和實(shí)際環(huán)境噪聲等因素的干擾,同時(shí)基于TCN進(jìn)一步學(xué)習(xí)深度語(yǔ)音特征,對(duì)實(shí)際環(huán)境噪聲下的手機(jī)語(yǔ)音信號(hào)具有更好的適應(yīng)性。
為解決司法領(lǐng)域中實(shí)際環(huán)境噪聲下的手機(jī)來(lái)源識(shí)別問(wèn)題,本文首先提取含有實(shí)際環(huán)境噪聲的語(yǔ)音混合特征,然后基于LDA對(duì)混合特征進(jìn)行降維得到LQBED特征,最后選擇并設(shè)計(jì)TCN進(jìn)一步學(xué)習(xí)語(yǔ)音深度特征并進(jìn)行分類,提出一種基于LDA和TCN的實(shí)際環(huán)境噪聲下的手機(jī)來(lái)源識(shí)別方法LQBED+TCN。根據(jù)10個(gè)品牌、47種型號(hào)的手機(jī)設(shè)備,本文構(gòu)建了一個(gè)包含32 900條語(yǔ)音樣本的實(shí)際環(huán)境噪聲下的語(yǔ)音數(shù)據(jù)庫(kù)。在該語(yǔ)音庫(kù)上的測(cè)試結(jié)果顯示,本文所提LQBED+TCN對(duì)實(shí)際環(huán)境噪聲具有較好的綜合識(shí)別性能,平均識(shí)別率達(dá)到了99.82%,且在召回率、精確率和F1分?jǐn)?shù)值上也優(yōu)于已有方法,進(jìn)一步降低了錯(cuò)判率,對(duì)司法領(lǐng)域中語(yǔ)音證據(jù)的鑒真具有一定的實(shí)際價(jià)值。
但是,本文工作只是針對(duì)司法領(lǐng)域?qū)嶋H需求,利用TCN在手機(jī)來(lái)源識(shí)別上的一個(gè)初步嘗試,仍有許多工作需要進(jìn)一步深入研究。首先,由于實(shí)驗(yàn)條件的限制,本文收錄的手機(jī)型號(hào)覆蓋范圍還不夠廣泛,因此語(yǔ)音庫(kù)仍需要進(jìn)一步擴(kuò)充;其次,本文創(chuàng)建的語(yǔ)音數(shù)據(jù)庫(kù)均是MP3格式,還需要考慮其它的手機(jī)語(yǔ)音格式;而且,還需要考慮語(yǔ)音信號(hào)受到信號(hào)處理攻擊下的魯棒性;最后,還需進(jìn)一步考慮改善和挖掘TCN的優(yōu)勢(shì)。