王俊生, 王 波, 韓慶芝
(1 國網(wǎng)電子商務(wù)有限公司, 北京 100053; 2 國網(wǎng)雄安金融科技集團有限公司, 河北 雄安 071800;3 國家電網(wǎng)電力金融與電子商務(wù)實驗室, 北京 100053)
近年來,在陸續(xù)涌現(xiàn)的各類身份識別技術(shù)中,如指紋識別、人臉識別、聲紋識別等就正以其安全、方便的特性,以及較傳統(tǒng)的安全認證技術(shù)所展現(xiàn)的更優(yōu)防偽性能,已在眾多身份認證領(lǐng)域中獲得了廣泛應(yīng)用,而與此同時其市場規(guī)模也正悄然呈現(xiàn)出快速遞增態(tài)勢[1]。
通常,生物識別技術(shù)多將分為單模態(tài)識別技術(shù)和多模態(tài)識別技術(shù)兩種。時下,隨著現(xiàn)代科學技術(shù)的飛躍式發(fā)展,其中的單模態(tài)生物識別技術(shù)已日漸凸顯出其相對居于劣勢的安全性,也就是存在著較大的安全風險,例如仿真頭套、全息投影、人臉跟蹤等高科技手段的出現(xiàn),即從根本上打破了單模態(tài)生物識別技術(shù)的安全屏障。而多模態(tài)生物識別技術(shù)卻可通過數(shù)據(jù)融合算法將不同的生物特征進行有機結(jié)合,如掌紋與人臉特征的融合[2]、指紋與聲紋特征的融合[3]、虹膜與指紋特征的融合[4]等,這樣就可有效彌補單模態(tài)生物識別技術(shù)的安全風險,從而使識別系統(tǒng)的安全性能大大提高[5]。迄至目前,基于市場需求的多樣化和市場競爭的選擇性作用,均已使得多模態(tài)生物識別技術(shù)日漸成為生物特征識別領(lǐng)域的研究熱點,并且也終將引領(lǐng)生物特征識別領(lǐng)域的未來發(fā)展趨勢[6]。
通過全面分析后可知,人臉識別技術(shù)具有唯一性和不易復(fù)制性,而且還兼具識別無接觸、使用上的便捷性和用戶友好性等特點[7],據(jù)此就贏得了廣闊的發(fā)展空間。但不可否認的卻是,人臉識別技術(shù)的安全性相對較弱,也就是用戶將面臨隱私泄露的可能,而且其識別準確率也會受到多種外界因素的影響,如光線、識別距離,以及化妝、整容所帶來的面部特征改變等。而另有研究表明,在將聲紋識別與其它生物特征比較后可知,前者表現(xiàn)出提取特征方便、獲取特征成本低[8]、受到距離影響較小的突出優(yōu)越性,因此將會更加適于應(yīng)用在遠程身份認證的方案設(shè)計中。此外,尤需一提的是,聲紋辨認和確認算法的運行復(fù)雜度也很低。故而,聲紋識別已經(jīng)越來越受到業(yè)界的系統(tǒng)開發(fā)者和用戶群體的高度重視與青睞。雖然如此,卻仍需看到,聲音本身具有易變性,而且也容易受到身體狀況、年齡、情緒等因素影響,以及環(huán)境噪音干擾等,因此現(xiàn)如今的聲紋識別大多情況下還僅是應(yīng)用在對身份認證安全性要求不高的場景中。綜上論述演繹后可以推得,如果能夠?qū)⑸厦?種實用性強、特征易獲取、且應(yīng)用廣泛的生物特征進行融合,就會在相當程度上顯著提升身份識別的適用性、準確性、隱蔽性及安全性,同時還能大幅降低生物識別對環(huán)境的依賴度,從而全面滿足用戶在不同目的和環(huán)境下的使用需求。
在此基礎(chǔ)上,本文擬將運用卷積神經(jīng)網(wǎng)絡(luò)提取人臉特征,而對聲紋特征的提取則采用了梅爾頻率倒譜系數(shù)(MFCC)的方法,并通過加權(quán)融合算法將2種特征加以融合,彌補單一模態(tài)生物識別技術(shù)的不足,使身份認證系統(tǒng)具有更高的安全性和魯棒性。本文則將對此展開如下的研究論述。
目前,基于深度模型的卷積網(wǎng)絡(luò)憑借其局部連接和權(quán)值共享的獨特優(yōu)勢,在計算機視覺領(lǐng)域的研發(fā)實踐中占據(jù)著舉足輕重的位置。卷積神經(jīng)網(wǎng)絡(luò)本質(zhì)上是一個前饋神經(jīng)網(wǎng)絡(luò),通過卷積層和池化層的交替級聯(lián)模擬人類視覺皮層中用于高層次特征提取的簡單細胞和復(fù)雜細胞交替級聯(lián)結(jié)構(gòu)。
卷積神經(jīng)網(wǎng)絡(luò)作為一種深度機器學習模型,通過多次訓練數(shù)據(jù)學習得到特征提取參數(shù)[9],一方面通過神經(jīng)元的非全連接方式、即稀疏性連接方式,將相鄰每層的神經(jīng)元節(jié)點僅和與其相近的上一層神經(jīng)元節(jié)點鏈接,有效地減少了神經(jīng)網(wǎng)絡(luò)中的參數(shù)規(guī)模;另一方面,通過權(quán)值共享方式降低了網(wǎng)絡(luò)復(fù)雜度,減少了網(wǎng)絡(luò)參數(shù)。
卷積神經(jīng)網(wǎng)絡(luò)特征提取的核心模塊包括隱含的卷積層和池化采樣層,采用梯度下降算法對網(wǎng)絡(luò)中的權(quán)重參數(shù)逐層反向調(diào)節(jié),并通過設(shè)置迭代次數(shù)反復(fù)訓練網(wǎng)絡(luò)參數(shù)以提高網(wǎng)絡(luò)精度。其中,卷積層與池化采樣層是交替連接的。最高層是2個全連接層,首個全連接層的輸入是由卷積層和池化層進行特征提取得到的特征圖像,最后一層全連接則是對圖像進行分類。
卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)包括:卷積層、池化層和全連接層,每一層包含多個特征圖,每個特征圖將利用過濾器(卷積核)提取特征。具體來說,在卷積層中,進行卷積計算可以提取輸入數(shù)據(jù)的高層次特征,從而增強原始數(shù)據(jù)的特征,并且還能夠達到科學降低噪音的效果。池化層通過最大池化或平均池化對圖像進行下采樣,這樣可以減少模型的計算量,還能抵抗輸入的輕微形變或位移,使圖像具有旋轉(zhuǎn)不變性;而當找到某個特征后,只需要知道該特征與其它特征的相對位置而無需確認其詳細位置就可以對圖像進行識別。卷積層和池化層是圖像特征提取的過程,最后將通過全連接層完成分類任務(wù)(全連接層與BP神經(jīng)網(wǎng)絡(luò)一樣)。
利用卷積神經(jīng)網(wǎng)絡(luò)通過逐層卷積降維提取人臉特征,并經(jīng)由多層非線性映射,從原始樣本(未經(jīng)處理的樣本)中歷經(jīng)多次迭代訓練,自動學習修正模型參數(shù)并形成相應(yīng)的特征提取器,這樣就能夠降低模型對訓練樣本的要求。而且,當網(wǎng)絡(luò)的層數(shù)越多,學習得到的樣本全局特征也就越多。更進一步地,通過卷積和池化計算得到的圖像特征也不容易產(chǎn)生過擬合。
聲紋特征提取采用梅爾頻率倒譜系數(shù)(MFCC),即使因其能夠很好地表達人耳對語音的感知,故而這里將通過構(gòu)建Mel三角濾波器組來模擬人耳的聽覺特性,以提高語音識別系統(tǒng)的識別率和魯棒性。MFCC提取過程可闡釋如下。
(1)預(yù)加重。將采集到的語音信息送入一個高通濾波器,即:H(Z)=1-μz-1。其中,μ表示預(yù)加重系數(shù),取值范圍為0.9~1。經(jīng)過預(yù)加重處理后,語音信號中的高頻部分得以增強。
(2)分幀。考慮到語音信號在短時間內(nèi)平穩(wěn)的特點,就可將其以每幀20~30 ms的時間進行分段截取。同時,為了切實保證幀與幀之間的連續(xù)性,還需要在分幀時加入一個幀移,即在2幀之間設(shè)置一個重疊區(qū)域。
(3)加窗。通常使用漢明窗(Hamming Window),用于降低語音幀的邊緣效應(yīng),增加語音幀左端和右端的連續(xù)性。
(4)快速傅里葉變換(FFT)。將語音信號從時域上轉(zhuǎn)換到頻域上進行表示,通過觀察頻譜圖,了解能量分布狀況,有利于更好地觀察其特性。
(5)三角帶通濾波器。將語音頻譜通過一組Mel尺度的三角形濾波器組,使頻譜平滑化,并避免諧波的影響,突顯原始語音的共振峰。不僅如此,還可以降低整體運算量。
(6)對數(shù)能量計算。將(5)中的每個濾波器組的輸出進行對數(shù)運算,得到對數(shù)能量譜。
(7)離散余弦變換(DCT)。通過DCT變換得到MFCC系數(shù),使語音信號從頻域轉(zhuǎn)化至時域,從而可以得到MFCC特征。
(8)動態(tài)差分參數(shù)的提取。語音信號除了MFCC反映的靜態(tài)特征外,還包含動態(tài)特性,而語音的動態(tài)特性則可以用靜態(tài)特征的差分譜做出描述,常用一階差分和二階差分來反映語音信號的動態(tài)特征。
人臉特征提取和聲紋特征提取是2個相對獨立的過程,特征提取方法不同,且屬于不同的生物模態(tài),因此這2種特征在融合之前,需要引入歸一化處理,就是將這2種特征的特征向量處于同一范圍,有助于對其進行后續(xù)的綜合性分析。該部分研究內(nèi)容可探討分述如下。
本文采用z-score歸一化方法[10],方法中將基于原數(shù)據(jù)的均值和標準差進行標準化,數(shù)學公式如下:
(1)
其中,x是由人臉(聲紋)的特征向量組成的矩陣;μ為矩陣的均值;xnew為歸一化后的新數(shù)據(jù)。人臉特征和聲紋特征在經(jīng)過了歸一化處理后,就將會整合統(tǒng)一到一個一致區(qū)間中。文中在此之后,將給出這2種特征的融合研究過程。
本文采用遍歷加權(quán)方法進行人臉特征和聲紋特征的融合[2],通過比較每一組權(quán)值的識別率大小確定權(quán)值。人臉和聲紋的權(quán)值之和始終為1,并且只在0.1~0.9之間變化,步長為0.1,如式(2)所示:
wf+ws=1wf=0.1,0.2,…,0.9
(2)
其中,wf表示人臉的權(quán)值,ws表示聲紋的權(quán)值。聲紋特征向量的權(quán)值與人臉特征向量的權(quán)值是成反向變化的,即當人臉特征向量的權(quán)值從0.1~0.9之間變化時,聲紋特征向量從0.9到0.1變化,并且當人臉特征向量選定一個權(quán)值α時,所有類別的人臉特征權(quán)值都為α,而所有聲紋特征的權(quán)值為1-α。當所有特征權(quán)值經(jīng)過0.1~0.9變化后,需要計算每個權(quán)值的識別率,研究推得其數(shù)學表述如下:
(3)
其中,R表示系統(tǒng)識別率;L和F分別表示合法用戶和違法者嘗試的總次數(shù);LR和FR分別表示錯誤拒絕和錯誤接收的次數(shù)。從中選擇使R最大的權(quán)值,視作最佳組合的權(quán)值,并作為人臉和聲紋加權(quán)后的最終權(quán)值。
在此基礎(chǔ)上,研究將利用卷積神經(jīng)網(wǎng)絡(luò)中的全連接層進行最后的特征分類判別。
本文針對單模態(tài)生物特征穩(wěn)定性差等缺陷,提出了將人臉特征與聲紋特征2種生物特征融合的方法。采用卷積神經(jīng)網(wǎng)絡(luò)來提取人臉特征,聲紋特征提取采用的是MFCC的方法,而后再經(jīng)過z-score方法將2種特征予以歸一化處理,接下來又采用遍歷加權(quán)的方法對2種特征進行融合,融合之后通過卷積神經(jīng)網(wǎng)絡(luò)中的全連接層實現(xiàn)最終的特征分類判別。