武欽芳,吳張倩,蘇兆品,2,3,4,張國富,2,3,4
1.合肥工業(yè)大學(xué) 計算機與信息學(xué)院,合肥 230601
2.智能互聯(lián)系統(tǒng)安徽省實驗室(合肥工業(yè)大學(xué)),合肥 230009
3.工業(yè)安全與應(yīng)急技術(shù)安徽省重點實驗室(合肥工業(yè)大學(xué)),合肥 230601
4.安全關(guān)鍵工業(yè)測控技術(shù)教育部工程研究中心,合肥 230601
隨著智能手機和移動互聯(lián)網(wǎng)的普及,人們越來越傾向于利用微信、手機QQ等各種即時通信應(yīng)用工具進(jìn)行溝通和發(fā)布信息,尤其是通過發(fā)送語音的方式代替文字編輯,交流更加便捷,因而私錄手機音頻日益增多?!蹲罡呷嗣穹ㄔ宏P(guān)于民事訴訟證據(jù)的若干規(guī)定》中指出:數(shù)字音頻可作為電子證據(jù)出示給法院。尤其是在眾多的民事糾紛中,通過分辨、鑒定手機語音中的聲音來確定使用者身份和交互內(nèi)容,往往能起到關(guān)鍵性的作用。但是手機語音是否可以作為有效證據(jù)被法庭采納的一個前提條件是需要對其真實性、關(guān)聯(lián)性和合法性進(jìn)行認(rèn)定,而手機來源識別是手機語音真實性鑒證的重要環(huán)節(jié)之一,已成為多媒體取證領(lǐng)域中的一個研究熱點[1-3]。
目前熱門的基于語音的手機來源識別方法大都采用人工智能技術(shù),包括機器學(xué)習(xí)、深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等。Hanilci和Kinnunen[4]采用信息論的方法提取非語音部分的特征,利用最大互信息訓(xùn)練的高斯混合模型來表示特定設(shè)備的特征。Aggarwal等[5]從噪聲估計樣本中提取Mel頻率倒譜系數(shù)(Mel frequency cepstral coeffificient,MFCC),并使用支持向量機(support vector machine,SVM)進(jìn)行分類。Qi等[6]從背景噪聲中提取語音特征,并對比分析了在Softmax回歸模型、多層感知機、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)下的識別性能。裴安山等[7]將本底噪聲作為手機的指紋,采用主成分分析法對本底噪聲特征進(jìn)行降維,并采用SVM進(jìn)行分類。此外,裴安山等[8]使用端點檢測得到語音的靜音段,然后將靜音段中對數(shù)域的Mel濾波器組系數(shù)(logarithmic Mel-filter bank coefficients,F(xiàn)bank)按照最佳優(yōu)先原則進(jìn)行交叉驗證降維后交給SVM進(jìn)行分類。而且,裴安山等[9]還將語音的頻譜信息量、對數(shù)譜和相位譜三個特征進(jìn)行融合,并使用基于徑向基核函數(shù)的SVM進(jìn)行分類。Luo等[10]發(fā)現(xiàn)不同生產(chǎn)商在音頻采集管道上不盡相同,提出了一種基于帶能量描述符(band energy descriptor,BED)特征,可以作為一個具有顯著鑒別能力的魯棒指紋,表征設(shè)備特征,并在此基礎(chǔ)上基于BED和SVM提出了一種手機來源識別方法(BED+SVM)。Qin等[11]為了解決同一品牌手機的不同型號難以有效識別的難點,提出了一種從CQT(constant Q transform,CQT)域的中低頻段提取頻譜分布特征,以有效地體現(xiàn)它們之間的細(xì)微差別,然后通過實驗驗證基于CQT和CNN的設(shè)備識別方法(CQT+CNN)具有更好的識別效果和更強的魯棒性。秦天蕓等[12]基于線性預(yù)測系數(shù)和MFCC特征得到線性預(yù)測梅爾頻率倒譜系數(shù),然后將這個新的特征與能量特征組合作為手機的指紋,最后基于SVM進(jìn)行分類。Jin等[13]利用編碼特征作為記錄設(shè)備的固有指紋,在研究了7個主流品牌的24款智能手機的編碼特征基礎(chǔ)上,提取一些重要參數(shù)的統(tǒng)計特征作為智能手機識別的判別特征,并且為了在合理的特征維數(shù)和較高的分類率之間保持平衡,設(shè)計了方差閾值和SVM相結(jié)合的兩步特征選擇策略來選擇最優(yōu)特征。Baldini和Amerini[14]在不同頻率下用非語音聲音刺激內(nèi)置麥克風(fēng),利用手機內(nèi)置麥克風(fēng)的固有物理特性構(gòu)建CNN對智能手機進(jìn)行識別和認(rèn)證。
總的說來,基于語音的手機來源識別主要是挖掘語音信號中手機內(nèi)置麥克風(fēng)自身的高斯噪聲特征來進(jìn)行識別。上述已有工作雖然取得了不錯的識別效果,但存在如下問題:
(1)已有方法均是采用標(biāo)準(zhǔn)數(shù)據(jù)庫,大都是純凈語音或人工背景噪聲語音,而在司法領(lǐng)域的實際應(yīng)用場景中,所提取的語音證據(jù)通常復(fù)雜多變,含有很強的環(huán)境背景噪聲,已有方法所提取的語音特征很難避免環(huán)境背景噪聲的干擾,難以反應(yīng)設(shè)備噪聲本身的特性。
(2)語音信號具有典型的時間序列性,而已有工作中采用的深度神經(jīng)網(wǎng)絡(luò)方法很難在時間維度上進(jìn)行特征提取,難以捕捉時序上的依賴關(guān)系。
(3)深度神經(jīng)網(wǎng)絡(luò)的性能高度依賴于其網(wǎng)絡(luò)結(jié)構(gòu),上述已有方法均采用前人經(jīng)驗設(shè)置或手工試驗調(diào)整,甚至對于不同背景、內(nèi)容的語音數(shù)據(jù)庫可能需要重新設(shè)計、反復(fù)試驗,不僅耗費大量的人力成本,效率低下,而且很難找到一個高效可行、能夠滿足實際應(yīng)用需求的通用網(wǎng)絡(luò)結(jié)構(gòu),難以充分發(fā)揮深度神經(jīng)網(wǎng)絡(luò)的最佳性能。
基于上述背景,本文首先構(gòu)建了一個具有環(huán)境背景噪聲的手機語音數(shù)據(jù)庫:通過搭建手機音頻網(wǎng)絡(luò)采集平臺,任一用戶可不受性別、年齡、所處環(huán)境等限制,通過該平臺上傳5~15 min的MP3格式手機語音,并將搜集到的素材經(jīng)過處理、篩選,構(gòu)建了一個具有環(huán)境背景噪聲的手機語音數(shù)據(jù)庫,包括在室內(nèi)、操場、地鐵站、馬路邊等日常場景下的對話、電影對白、無線電廣播等各種內(nèi)容。而且數(shù)據(jù)庫涵蓋了10個品牌、47種型號的不同手機設(shè)備,共32 900條語音,數(shù)據(jù)集包含的手機型號數(shù)目及語音數(shù)目均超過目前已有的手機來源識別數(shù)據(jù)庫。其次,本文基于Fbank特征利用時間卷積網(wǎng)絡(luò)(temporal convolutional network,TCN)[15]進(jìn)行深度語音特征學(xué)習(xí),并利用線性判別分析(linear discriminant analysis,LDA)[16]提取低維深度特征,最后將低維深度特征輸入到LIBSVM[17-18]中進(jìn)行訓(xùn)練和識別,這樣不僅可以有效提取手機設(shè)備的高斯噪聲特征,而且能夠很好地反映語音信號的時間序列關(guān)系。最后,本文提出一種基于遺傳算法(genetic algorithm,GA)[19]的TCN優(yōu)化方法,并設(shè)計編碼方式、適應(yīng)度函數(shù)和遺傳操作,不僅節(jié)省了網(wǎng)絡(luò)設(shè)計效率,而且可以充分發(fā)揮深度神經(jīng)網(wǎng)絡(luò)的最佳性能。
本文所提的手機來源識別整體框架如圖1所示,總共分為三個層次:TCN層、LDA層和SVM層。本文利用LibROSA工具包[20]提取手機語音信號中的Fbank特征[8]作為識別框架的輸入,這是因為與經(jīng)典的MFCC特征相比,F(xiàn)bank特征沒有進(jìn)行去相關(guān)和壓縮處理,保留了語音信號最原始的信息,擬合了人耳接收的特性,更符合聲音信號的本質(zhì),可以讓CNN更好地利用不同維度特征之間的相關(guān)性進(jìn)行模型訓(xùn)練[8,21]。
圖1 手機來源識別整體框架Fig.1 Framework of source cell-phone identification
為了盡可能地忽略掉環(huán)境背景噪聲的影響,本文讓TCN根據(jù)不同層級卷積特征的差異性去自主訓(xùn)練Fbank特征,從而暴力提取語音信號中的設(shè)備噪聲高維深度特征。與其他CNN相比,TCN可以根據(jù)不同任務(wù)的不同特性靈活選擇殘差模塊、激活函數(shù)、優(yōu)化器等結(jié)構(gòu)元素,從而可以靈活決定歷史記憶長度,更加有利于捕捉時序上的依賴關(guān)系,從而能夠很好地迎合語音信號的時間序列性[15]。而且,還可以在TCN中多次利用加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練的BatchNorm算法[22]來提高TCN的收斂速度和穩(wěn)定性。需要指出的是,對于常規(guī)的TCN應(yīng)用,通常采用全局平均池化層和softmax層對最后一個因果卷積層輸出的高維深度特征進(jìn)行數(shù)據(jù)的強制降維以實現(xiàn)分類和識別[15]。但是,通過大量測試發(fā)現(xiàn),當(dāng)手機語音數(shù)據(jù)集規(guī)模較小、訓(xùn)練不夠充分時,這種暴力降維往往會丟失一些關(guān)鍵設(shè)備噪聲信息,且不能有效抵抗環(huán)境背景噪聲的影響,導(dǎo)致TCN的分類準(zhǔn)確率大幅下降。因此,本文保留了完整的TCN訓(xùn)練結(jié)構(gòu),但并沒有利用全局平均池化層和softmax層進(jìn)行分類和識別,而是將最后一個因果卷積層輸出的高維深度特征送給LDA層進(jìn)行有效的降維來實現(xiàn)低維深度特征(low-dimensional deep feature,LDDF)的提取。
為了充分利用手機語音中的設(shè)備噪聲主要是高斯噪聲這一特性,本文采用對滿足高斯分布的數(shù)據(jù)效果特別顯著的LDA[16]對TCN輸出的高維深度特征進(jìn)行降維和優(yōu)化,去除高維深度特征中的冗余和相關(guān)性,以提取語音信號中設(shè)備噪聲的LDDF。最后,考慮到SVM在處理小樣本數(shù)據(jù)方面的優(yōu)勢以及較好的魯棒性,本文利用LIBSVM工具包[17-18]對提取的LDDF進(jìn)行訓(xùn)練建立手機設(shè)備多分類模型。
從上面的介紹可以很容易看出,在圖1的整體框架中,LDA和SVM可以看作是TCN中全局平均池化層和softmax層的有效替代。影響分類效果的主要因素就是通過TCN層學(xué)習(xí)訓(xùn)練和暴力提取的高維深度特征是否能有效抵抗環(huán)境背景噪聲的干擾和充分反映設(shè)備噪聲信息。更進(jìn)一步的,在TCN層的網(wǎng)絡(luò)結(jié)構(gòu)中,影響TCN學(xué)習(xí)性能的主要因素可概括如下:
(1)殘差模塊個數(shù):殘差模塊可以在很大程度上避免梯度爆炸和梯度消失,從而有效解決隨著神經(jīng)網(wǎng)絡(luò)層數(shù)變多擬合效果反而變差的問題[15]。通常,每個殘差模塊包含5個殘差單元Res_unit。殘差模塊的個數(shù)在很大程度上決定了網(wǎng)絡(luò)的深度。從理論上來說,網(wǎng)絡(luò)越深其學(xué)習(xí)能力越強,但容易造成過擬合,導(dǎo)致模型性能下降。因此,根據(jù)TCN學(xué)習(xí)效果,選擇合適數(shù)量的殘差模塊(即確定圖1中r的值),是需要面臨的第一個問題。
(2)激活函數(shù)的選擇:激活函數(shù)是為了在TCN中引入非線性因素以避免單純的線性組合,如Sigmoid、Tanh、ReLu、ELU等函數(shù)[23]。每一層的輸出通過這些激活函數(shù)之后,可以變得更加復(fù)雜,從而提升神經(jīng)網(wǎng)絡(luò)模型的整體表達(dá)能力。在圖1中,總共有6個位置需要用到激活函數(shù),因為在同一網(wǎng)絡(luò)中,所有Res_unit通常采用相同的結(jié)構(gòu)。對于每一個位置,如何選擇最合適的激活函數(shù),是需要解決的第二個問題。
(3)優(yōu)化器的選擇:優(yōu)化器是根據(jù)網(wǎng)絡(luò)反向傳播的梯度信息來更新網(wǎng)絡(luò)的相關(guān)權(quán)重,以起到降低loss函數(shù)計算值的作用,避免網(wǎng)絡(luò)學(xué)習(xí)進(jìn)入局部最優(yōu)或鞍點,如
RMSprop、Adam、SGD、Adagrad、Adadelta、Adamax、Nadam等算法[24]。不同的優(yōu)化算法其收斂速度和收斂性各不相同。因此,根據(jù)學(xué)習(xí)效果,選擇合適的優(yōu)化器,是需要解決的第三個問題。
正如前述,傳統(tǒng)的基于深度神經(jīng)網(wǎng)絡(luò)的手機來源識別方法大都依靠人工經(jīng)驗選取相應(yīng)的結(jié)構(gòu)來解決上述三個問題,效率極其低下。與已有工作不同的是,在圖1中,本文根據(jù)SVM層的分類效果,采用GA[19]來實現(xiàn)TCN層網(wǎng)絡(luò)結(jié)構(gòu)的智能和自動設(shè)計。此外,需要強調(diào)的是,模式識別領(lǐng)域中已有的GA+SVM方法其主要思想是采用SVM分類效果作為GA中的適應(yīng)度函數(shù),從而實現(xiàn)特征的提取和選擇,以達(dá)到更好的識別效果,其編碼方式及遺傳操作通常是對特征進(jìn)行處理和操作。而本文方法則是利用TCN和LDA實現(xiàn)特征的提取和選擇,GA用來優(yōu)化TCN的結(jié)構(gòu),其編碼方式以及相應(yīng)的遺傳操作均是針對TCN的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行,SVM則直接利用提取的特征進(jìn)行分類。這種GA+TCN+LDA+SVM的優(yōu)勢在于,不僅能夠充分利用深度網(wǎng)絡(luò)提取更能代表設(shè)備特質(zhì)的低維深度特征,提高了識別性能,而且不需要對深度網(wǎng)絡(luò)進(jìn)行大量、繁瑣的調(diào)參工作,提高了網(wǎng)絡(luò)設(shè)計的效率。
GA[19]是模擬自然界生物進(jìn)化機制而發(fā)展起來的一種高效、并行、全局搜索和優(yōu)化方法,可以在搜索過程中自動獲取和積累有關(guān)搜索空間的知識,并自適應(yīng)地控制搜索過程以求得最佳解。GA通常由三個部分組成:種群、適應(yīng)度函數(shù)和進(jìn)化機制。具體來說,種群是一組個體(即候選解),會在迭代過程中被更新和維護(hù);適應(yīng)度函數(shù)用于給種群的每個候選解賦值;進(jìn)化機制包括精英保留、選擇、交叉和變異等基本算子。有關(guān)GA的更多詳細(xì)信息可參閱文獻(xiàn)[19]。
與傳統(tǒng)人工智能系統(tǒng)不同,即使輸入發(fā)生了巨大的變化,GA也不會輕易崩潰,它具有在優(yōu)化過程中自適應(yīng)搜索的能力,特別適用于具有大狀態(tài)空間、多模態(tài)狀態(tài)空間、多維曲面等問題,并已成功應(yīng)用于優(yōu)化各種CNN結(jié)構(gòu)[25-26]。因此,本文采用GA來智能優(yōu)化圖1中TCN層,其基本流程如圖2所示。首先基于個體編碼方案對種群(假設(shè)包含N個個體)進(jìn)行初始化。對于初始種群中的每個個體,根據(jù)基因編碼解碼出相應(yīng)的TCN網(wǎng)絡(luò)結(jié)構(gòu)并進(jìn)行適應(yīng)度評估,然后利用選擇、交叉和變異三個遺傳操作產(chǎn)生進(jìn)化種群,再對進(jìn)化種群進(jìn)行適應(yīng)度評估。將初始種群和進(jìn)化種群合并,從組合種群中選擇適應(yīng)度值最好的N個個體組成新種群。此時,如果算法未達(dá)到最大迭代次數(shù),則重復(fù)上述步驟讓新種群繼續(xù)進(jìn)化,否則從新種群中挑出適應(yīng)度值最大的個體進(jìn)行解碼,確定最佳的TCN結(jié)構(gòu)。
圖2 GA優(yōu)化TCN的基本流程Fig.2 Flowchart of GA for optimizing TCN
為了更加清晰地說明GA如何智能優(yōu)化TCN,在下面的章節(jié)中,將詳細(xì)介紹圖2中的一些關(guān)鍵步驟。
從第2章知道,TCN中需要優(yōu)化的結(jié)構(gòu)元素有殘差模塊個數(shù)、激活函數(shù)和優(yōu)化器的選擇,是一個典型的組合優(yōu)化問題。為了簡化問題的求解,采用一維整數(shù)編碼,如圖3所示。每個個體編碼有8個基因位,第1個基因位代表殘差模塊個數(shù),取值為[1,3]之間的一個隨機整數(shù);第2個基因位為優(yōu)化器,取值為[1,7]之間的一個隨機整數(shù),分別代表RMSprop、Adam、SGD、Adagrad、Adadelta、Adamax和Nadam這7個優(yōu)化算法中的一個;后面6個基因位為圖1中6個位置的激活函數(shù),取值為[1,4]之間的一個隨機整數(shù),分別代表Sigmoid、Tanh、ReLu和ELU這4個函數(shù)中的一個。這種編碼方式簡單、容易理解,從根本上與TCN結(jié)構(gòu)優(yōu)化問題的組合本質(zhì)相適應(yīng),從而為問題的求解奠定了良好的基礎(chǔ)。
圖3 個體編碼方案Fig.3 Encoding scheme of chromosome in GA
對于初始種群中的每一個個體,按照圖3的編碼方式在基因位各自的取值范圍內(nèi)隨機生成一個整數(shù),根據(jù)不同整數(shù)代表的含義就可以解碼出這個個體對應(yīng)的TCN采用的結(jié)構(gòu)。
適應(yīng)度是指個體在進(jìn)化過程中對環(huán)境的適應(yīng)能力。優(yōu)化TCN結(jié)構(gòu)的最終目的是提高手機來源識別方法的平均識別準(zhǔn)確率,即預(yù)測正確的樣本占所有樣本的比例。因此,如圖2所示,對于每個個體來說,根據(jù)解碼出的TCN結(jié)構(gòu),首先利用訓(xùn)練樣本對該TCN進(jìn)行訓(xùn)練,再用測試樣本進(jìn)行測試,以SVM層分類結(jié)果對應(yīng)的平均識別準(zhǔn)確率作為個體的適應(yīng)度值。
如同自然界的進(jìn)化一樣,最優(yōu)秀的個體應(yīng)該存活下來并被用來創(chuàng)造新的后代。也就是說,個體越優(yōu)秀,被選中的幾率就應(yīng)該越大。因此,利用二元錦標(biāo)賽選擇法來選擇當(dāng)前初始種群中的存活個體。首先從當(dāng)前初始種群中隨機選擇兩個候選個體,然后比較這兩個候選個體的適應(yīng)度值,選擇適應(yīng)度值更大的那個個體存活下來放入過渡種群中。重復(fù)上述步驟,直到這個過渡種群的規(guī)模達(dá)到設(shè)定的N。
交叉是將兩個選定的父代個體的基因位混合以生成兩個子代個體的過程。交叉通常使用較高的交叉率,一般取值在[0.8,0.95]之間。本文使用最簡單的單點交叉來形成交叉種群。從過渡種群中依次選擇一對候選個體作為父代,然后在(0,1)之間生成一個隨機數(shù)。如果隨機數(shù)大于給定的交叉率,則直接將父代的基因位復(fù)制給兩個子代個體。否則,在圖3的8個基因位中隨機選擇一個基因位作為交叉點,然后將兩個父代的基因位中超過交叉點的位在兩個父代之間交換,形成兩個子代個體。也就是說,從第一個基因位開始到交叉點的所有位都是從一個父代個體復(fù)制的,剩下的基因位則是從另一個個父代個體復(fù)制的。這樣處理的好處是交叉后每個子代個體的各個基因位取值仍然能夠滿足各自的取值范圍約束,確保了子代個體的可行性。重復(fù)上述步驟,可以生成規(guī)模為N的交叉種群。
在執(zhí)行交叉后,在交叉種群中對每個個體進(jìn)行變異操作,形成進(jìn)化種群。變異的目的是防止種群中的所有候選解陷入局部最優(yōu),并保持遺傳的多樣性。變異操作是在預(yù)先設(shè)定的變異率下執(zhí)行,其值通常設(shè)得很低。在本文中,采用經(jīng)典的全局二元變異策略,即每個個體的每一個基因位都獨立的隨變異率進(jìn)行突變,這一方法已廣泛應(yīng)用于各種元啟發(fā)式搜索算法中[27]。具體來說,對于交叉種群中的每個個體中的每個基因位,首先在(0,1)之間生成一個隨機數(shù),如果隨機數(shù)不大于給定的變異率,則在該基因位對應(yīng)的取值范圍內(nèi)隨機生成一個與當(dāng)前取值不同的整數(shù)來取代當(dāng)前的值。這樣既實現(xiàn)了基因突變,又能確保個體的可行性。變異率被設(shè)置為1/nbits,其中nbits是基因位的總位數(shù),在本文中nbits=8。
將進(jìn)化種群進(jìn)行適應(yīng)度評估,并與當(dāng)前初始種群結(jié)合,形成大小為2N的組合種群。然后對組合種群中的個體適應(yīng)度值按照從大到小進(jìn)行排序,從組合種群中選擇N個適應(yīng)度值最大的個體組成下一代新的初始種群。由于以前和現(xiàn)在的所有最佳個體都被保留在了新種群中,這種精英保留策略確保了算法的收斂性。
目前用于手機來源識別的開源語音庫均是在實驗室環(huán)境下構(gòu)建的,且含有的手機型號較少。為了搜集盡可能多的具有自然環(huán)境背景噪聲的手機語音,搭建了一個手機音頻網(wǎng)絡(luò)采集平臺,任一用戶可不受性別、年齡、所處環(huán)境等限制,通過該平臺上傳5~15 min的MP3格式手機語音。將搜集到的素材經(jīng)過處理、篩選,構(gòu)建了一個具有環(huán)境背景噪聲的手機語音數(shù)據(jù)庫,包括在室內(nèi)、操場、地鐵站、馬路邊等日常場景下的對話、電影對白、無線電廣播等各種內(nèi)容。數(shù)據(jù)庫涵蓋了10個品牌、47種型號的不同手機設(shè)備,每種型號手機對應(yīng)不同的ID,如表1所示。其中每個ID手機收錄到的語音信號被平均分割成1 s,每個ID手機共收集700條語音片段,其中600條用于訓(xùn)練,其余100條用于測試。語音數(shù)據(jù)庫一共包含32 900條語音,其中訓(xùn)練樣本有28 200條語音,測試樣本包括4 700條語音。本文的所有實驗均是基于以上語音數(shù)據(jù)庫進(jìn)行測試和分析。
表1 每種手機的型號及其對應(yīng)的IDTable 1 Model and ID of each mobile phone
對于LDA層和SVM層,均采用開源包的默認(rèn)參數(shù)。對于GA,種群規(guī)模N=20,交叉率為0.9,變異率為0.125,最大迭代次數(shù)為50。對于TCN層,根據(jù)GA的優(yōu)化結(jié)果,最終確定殘差模塊個數(shù)為3,優(yōu)化器選擇RMSprop,6個位置的激活函數(shù)分別采用:(1)ELU、(2)Sigmoid、(3)ReLu、(4)ELU、(5)ReLu、(6)ELU。TCN的其他參數(shù)已在圖1的網(wǎng)絡(luò)結(jié)構(gòu)中給出。
為了充分評估所提方法的性能,本文引入如下四種在機器學(xué)習(xí)中常用性能指標(biāo)[7-9]:準(zhǔn)確率(Accuracy)、召回率(Recall)、精確率(Precision)和F1分?jǐn)?shù)(F1-score)。準(zhǔn)確率表示預(yù)測正確的樣本占所有樣本的比例,表示了一個分類器的區(qū)分能力。召回率是指在所有實際為正例的樣本中,被預(yù)測為正例的樣本比例。精確率代表的是在所有被分類為正例的樣本中,真正是正例的比例。F1分?jǐn)?shù)為精確率和召回率的諧波均值,兼顧了分類模型的精確率和召回率。
所有測試均在Intel?Core?i7-8700 CPU@3.20 GHz 3.19 GHz、RAM16.0 GB、64位操作系統(tǒng)的個人PC上進(jìn)行。
為了驗證GA優(yōu)化TCN的有效性,在第一個實驗中,將優(yōu)化TCN后提取到的LDDF特征(optimized LDDF,OLDDF),與文獻(xiàn)[15]推薦的默認(rèn)參數(shù)TCN提取的LDDF、文獻(xiàn)[10]的BED特征和文獻(xiàn)[11]的CQT特征進(jìn)行對比分析。BED特征和CQT特征是分別與SVM和CNN結(jié)合的較好的兩種語音特征,且分別在純凈和人工背景噪聲手機語音庫上取得了較好的識別準(zhǔn)確率。采用流行的t-SNE(t-stochastic neighbor embedding)[28]來可視化每個特征,以直觀地查看每個特征的可分性。t-SNE方法能夠同時保持原有數(shù)據(jù)的全體與局部結(jié)構(gòu)的特性,可以全面地反應(yīng)不同特征的分類能力。
圖4分別給出了BED特征、CQT特征、LDDF特征和OLDDF特征的t-SNE可視化結(jié)果。從圖中可以看出,BED和CQT特征的分類效果已經(jīng)較好,且二者的可分性不相上下,大多數(shù)設(shè)備可形成明顯可分離的簇。這是因為,BED特征關(guān)注語音信號的傅里葉變換后的能量值差異,可以很好捕捉到不同品牌手機設(shè)備之間的細(xì)微差異,而CQT關(guān)注的是中、低頻頻帶的特征,與固定時頻分辨率的短時傅里葉變換相比,具有更高的低頻頻率分辨率和高頻時間分辨率。但是,雖然不同品牌之間手機設(shè)備的差異較明顯,但同一品牌不同型號手機設(shè)備之間的相似度較高,仍然有一些極其相似的手機設(shè)備無法分離出來,簇與簇之間非常接近。LDDF特征是基于Fbank的深度特征,其可分性要顯著優(yōu)于BED特征和CQT特征,簇與簇之間的區(qū)別非常的明顯。這是因為,F(xiàn)bank特征具有很大的相關(guān)性,充分保留了語音信號中的有效信息,經(jīng)過TCN暴力提取,充分挖掘了Fbank保留的有效特征,再經(jīng)過LDA去除冗余,可分性顯著提升。特別的,OLDDF特征分割出來的簇要比LDDF特征更加緊湊和平滑。究其原因,經(jīng)過GA優(yōu)化的TCN其特征學(xué)習(xí)能力進(jìn)一步得到增強,讓OLDDF特征的可分性更好。
圖4 不同特征的t-SNE可視化結(jié)果Fig.4 Visualization results of t-SNE for different features
為了進(jìn)一步驗證GA優(yōu)化TCN的有效性,在第二個實驗,將LDDF+SVM、OLDDF+SVM、BED+SVM[10]和CQT+CNN[11]進(jìn)行對比實驗分析。
表2給出了不同識別方法的平均識別準(zhǔn)確率??梢钥闯?,在環(huán)境背景噪聲手機語音庫上,BED+SVM和CQT+CNN的識別性能相當(dāng),而LDDF+SVM和OLDDF+SVM識別準(zhǔn)確率更高,這說明本文選擇TCN挖掘設(shè)備深度特征的有效性。特別的,OLDDF+SVM相比LDDF+SVM又有了一定的提升,離完全識別只差了0.02%。上述實驗結(jié)果表明,用GA優(yōu)化TCN結(jié)構(gòu)確實能改善手機來源的識別性能,進(jìn)一步降低了出錯率。
表2 不同識別方法的平均識別準(zhǔn)確率Table 2 Mean accuracy of different identification methods
為了更加直觀地展示,圖5給出了OLDDF+SVM的詳細(xì)混淆矩陣[29]分析結(jié)果?;煜仃囍械拿恳恍写碓擃悩颖镜念A(yù)測結(jié)果,不同位置的值代表被預(yù)測成相應(yīng)ID的個數(shù),可以非常容易地可視化出多個類別是否有混淆,即一個類別被預(yù)測成另一個類別。由圖5可以看出,在47個手機ID上,OLDDF+SVM在45種手機ID上的識別準(zhǔn)確率達(dá)到了100%,只在ID25、ID38上有1個分類錯誤。
圖5 OLDDF+SVM的混淆矩陣結(jié)果Fig.5 Confusion matrix results obtained by OLDDF+SVM
為了進(jìn)一步的對比,圖6分別給出了BED+SVM、CQT+CNN、LDDF+SVM和OLDDF+SVM四種方法在Recall、Precision和F1-score三個指標(biāo)上的測試結(jié)果。從圖中可以看出,在ID25和ID38上,OLDDF+SVM的召回率要稍微低于BED+SVM、CQT+CNN和LDDF+SVM,但超過98%,在其余45個不同ID上,OLDDF+SVM的召回率要顯著優(yōu)于BED+SVM和CQT+CNN,而LDDF+SVM在3個ID上未達(dá)到100%。此外,在所有47個不同ID上,OLDDF+SVM的精確率和F1分?jǐn)?shù)與LDDF+SVM不相上下,均要明顯好于BED+SVM和CQT+CNN。而且,可以很清楚地看到,在每個手機ID上,OLDDF+SVM在三個指標(biāo)上的綜合表現(xiàn)非常突出,明顯優(yōu)于BED+SVM、CQT+CNN和LDDF+SVM,幾乎在每個ID上的每個指標(biāo)都達(dá)到了100%。
圖6 不同識別方法在不同指標(biāo)上的實驗結(jié)果Fig.6 Experimental results of different identification methods on different metrics
綜合分析以上實驗結(jié)果,本文引入TCN來暴力挖掘手機語音的深度特征信息,并基于GA優(yōu)化TCN結(jié)構(gòu),提升特征提取的性能。所提方法在環(huán)境背景噪聲下的手機來源識別更為精準(zhǔn),進(jìn)一步降低了出錯率,對司法領(lǐng)域的實際應(yīng)用具有潛在的價值。究其原因,本文所提方法利用GA優(yōu)化后的TCN從Fbank特征中學(xué)習(xí)語音信號中的深度特征,更能充分發(fā)揮TCN的學(xué)習(xí)性能,所提取的OLDDF特征更能反應(yīng)設(shè)備本身特性,而與說話人(年齡、性別等)、場景、內(nèi)容(日常對白、唱歌、廣播等)等環(huán)境背景噪聲無關(guān),具有更好的魯棒性。
基于手機語音的來源設(shè)備識別是多媒體取證領(lǐng)域中的一個熱點問題,本文針對司法領(lǐng)域?qū)Νh(huán)境背景噪聲下的手機語音證據(jù)的鑒真需求,首先提取手機語音中的Fbank特征以保留完整的設(shè)備噪聲信息,并輸入到TCN中進(jìn)行訓(xùn)練,進(jìn)一步提取能夠表征語音設(shè)備的深度特征,然后利用LDA進(jìn)行降維,去除高維深度特征中的冗余,并交給LIBSVM進(jìn)行分類。特別的,利用GA對TCN的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行智能優(yōu)化和自動設(shè)計,以最大化發(fā)揮TCN的學(xué)習(xí)性能。通過在47種型號手機設(shè)備錄制的32 900條環(huán)境背景噪聲語音樣本庫上的實驗表明,本文所提方法在準(zhǔn)確率、召回率、精確率和F1分?jǐn)?shù)四個主流指標(biāo)上的整體表現(xiàn)要明顯優(yōu)于已有識別方法BED+SVM和CQT+CNN,大大降低了出錯率,為環(huán)境背景噪聲下的手機來源識別提供了一個有益的嘗試。但由于實驗條件的限制,本文收錄的手機型號覆蓋范圍還不夠廣泛,在未來仍需進(jìn)一步擴充語音庫,而且還需要嘗試其他的手機語音格式以及受到攻擊的語音。