胡正豪 翟 昊 姜兆禎 周川川
(陸軍炮兵防空兵學(xué)院信息工程系 合肥 230031)
現(xiàn)實(shí)生活中,身份識(shí)別技術(shù)在很多行業(yè)已經(jīng)廣泛推廣開(kāi)來(lái),成為一個(gè)產(chǎn)業(yè)智能發(fā)展的標(biāo)志,其中大多數(shù)使用的都是人臉識(shí)別[1]、指紋掌紋識(shí)別[2]或者語(yǔ)音識(shí)別[3]等單一的識(shí)別技術(shù),但是在光照、噪聲等惡劣條件下,單一的模態(tài)識(shí)別容易引起誤判,造成不可估量的損失。
目前,社會(huì)上也有對(duì)多模態(tài)融合識(shí)別的研究[4~5],比如匹配層融合、決策層融合;但是,基于音視頻特征層的融合識(shí)別研究甚少,主要因?yàn)樘卣魅诤系碾y度較大,不同模態(tài)不同維度不易融合。針對(duì)此類情況,本文提出一種將聲音匹配值作為特征值與人臉圖像主成分提取特征融合進(jìn)行支持向量機(jī)分類的算法。首先,提取聲音訓(xùn)練信號(hào)的梅爾特征值構(gòu)建高斯混合模型[6],然后利用測(cè)試語(yǔ)音獲取匹配值,進(jìn)行歸一化處理,結(jié)果作為語(yǔ)音特征值;然后將人臉圖像依次進(jìn)行小波變換、主成分分析獲得特征值;最后,將兩個(gè)特征值進(jìn)行融合,得到整體特征向量,放入支持向量機(jī)進(jìn)行分類識(shí)別。通過(guò)實(shí)驗(yàn)證明,該方法取得了較理想的實(shí)驗(yàn)結(jié)果,對(duì)于單一噪聲的影響具有較高的抗噪能力,并且在一定條件下,具有更高的識(shí)別率。
語(yǔ)音特征的提取方式有許多[7~8],但是考慮要與圖像特征相融合,本文采用的方法是基于Mel頻率倒譜系數(shù)的高斯混合模型得分歸一化作為語(yǔ)音特征。經(jīng)過(guò)多次實(shí)驗(yàn)檢驗(yàn),未進(jìn)行歸一化的數(shù)據(jù)不能進(jìn)行SVM的分類識(shí)別,更不能進(jìn)行融合。具體方法如下。
1)將語(yǔ)音訓(xùn)練信號(hào)進(jìn)行預(yù)處理后,通過(guò)20維的Mel三角濾波器組進(jìn)行濾波,Mel頻率轉(zhuǎn)換公式可表示為
2)進(jìn)行DCT(離散余弦)變換,得到MFCC特征參數(shù),并計(jì)算一階差分得ΔMFCC,組成混合特征參數(shù)[MFCC,ΔMFCC]。
3)利用混合特征參數(shù)構(gòu)建16階GMM(高斯混合模型)模型庫(kù)Mi(i=1,2,3…n,n為說(shuō)話人類別數(shù))。
4)提取測(cè)試語(yǔ)音特征代入模型庫(kù)計(jì)算匹配分?jǐn)?shù),可得Sn={s1,s2,s3…sn}(n為模型數(shù))。
5)對(duì)所得匹配分?jǐn)?shù)采用Min-Max方法進(jìn)行歸一化處理
6)對(duì)所有測(cè)試語(yǔ)音進(jìn)行以上方法處理,最終得到所有測(cè)試語(yǔ)音的分?jǐn)?shù)集合,即所求得語(yǔ)音特征數(shù)組 Ym×n。
人臉識(shí)別技術(shù)[9]已經(jīng)廣泛應(yīng)用于人們生活當(dāng)中,相應(yīng)的算法也非常成熟。本文采用經(jīng)典的小波與PCA相結(jié)合的方法[10~11]提取人臉面部特征,得到數(shù)組Fm×k(m為測(cè)試樣數(shù),k為PCA降低維度),用于下步的數(shù)據(jù)融合。具體流程如圖1。
圖1 人臉特征提取流程圖
小波是指一種能量在時(shí)域非常集中的波,與傅里葉波一樣屬于正交波。它的多分辨分解能力可以通過(guò)低通與高通濾波器將圖片信息一層一層分解剝離開(kāi)來(lái),從而可以獲得原始圖像在水平和垂直方向上的低頻分量LL、水平方向上的低頻和垂直方向上的高頻LH、水平方向上的高頻和垂直方向上的低頻HL以及水平和垂直方向上的高頻分量HH。在本文中使用的是二維小波變換的一級(jí)水平和垂直方向上的低頻分量LL。
PCA(Principal Component Analysis)是一種常用的數(shù)據(jù)分析方法,可以將原始數(shù)據(jù)變換為一組各維度線性無(wú)關(guān)的表示,提取數(shù)據(jù)的主要特征分量。它的算法步驟可表示如下。
假設(shè)總共有m張p*q大小的照片,則:
1)將所有圖片信息整理成p*q行m列矩陣Xp*q×m={x1,x2,x3…xm}。
2)將X的每一行進(jìn)行零均值化,即減去這一行的均值μ。
3)求出協(xié)方差矩陣
4)求出協(xié)方差矩陣的特征值λi及對(duì)應(yīng)的特征向量vi。
5)將特征向量按對(duì)應(yīng)特征值大小從左往右排列,取前k個(gè)特征向量組成矩陣P。
6)Y=XP即為降維后得到的k維特征矩陣。
為了得到特征融合的最佳效果,特征的融合方法至關(guān)重要。本文將以上提取得到的語(yǔ)音特征矩陣Ym×n與人臉特征矩陣Fm×k分別進(jìn)行了串聯(lián)和并聯(lián)兩種融合方式[12],求得特征融合矩陣Rm×h(h大小由融合方法與特征維度決定),再進(jìn)行支持向量機(jī)的訓(xùn)練識(shí)別,計(jì)算識(shí)別率。
支持向量機(jī)[13](Support Vector Machine)主要是建立一個(gè)最優(yōu)決策的超平面,使得該平面兩側(cè)距離平面最近的兩類樣本之間的距離最大化,從而對(duì)分類問(wèn)題提供良好的泛化能力,其本質(zhì)上屬于線性分類器。為了更好地應(yīng)用于非線性樣本的分類,根據(jù)cover定理:將復(fù)雜的模式分類問(wèn)題非線性地投射到高維度空間中可能是線性可分的,因此只要特征維度足夠高,在高維空間中將以較高的概率線性可分。因此,研究人員通過(guò)設(shè)計(jì)非線性的核函數(shù),將原特征向量投影到更高維空間,實(shí)現(xiàn)支持向量機(jī)對(duì)非線性樣本的分類處理。目前常用的核函數(shù)主要有:
1)多項(xiàng)式核函數(shù)
2)徑向基核函數(shù)
3)Sigmoid核函數(shù)
本文實(shí)驗(yàn)主要在Spyder編譯環(huán)境下使用Py?thon3語(yǔ)言完成的,并利用了內(nèi)部的sklearn庫(kù)函數(shù)完成了相應(yīng)數(shù)據(jù)的處理。人臉圖片來(lái)自O(shè)RL數(shù)據(jù)庫(kù),共有400張,40個(gè)人各10張不同角度的照片組成。聲音數(shù)據(jù)來(lái)自40名工作人員,每個(gè)人10段不同文本的語(yǔ)音,總共400段語(yǔ)音,與圖片樣本相對(duì)應(yīng),由電腦Audacity軟件以單聲道16kHz頻率錄制完成。在實(shí)驗(yàn)時(shí),采用十折交叉驗(yàn)證法[14](將數(shù)據(jù)隨機(jī)分為10組,9組作為訓(xùn)練,1組作為識(shí)別,共進(jìn)行10次)對(duì)數(shù)據(jù)集分開(kāi)訓(xùn)練測(cè)試,最后,計(jì)算得到識(shí)別率。
人臉數(shù)據(jù)不做處理,PCA降維至8維(經(jīng)過(guò)多次實(shí)驗(yàn)測(cè)得,降至8維時(shí)效果最好),聲音數(shù)據(jù)加以信噪比10~30的白噪聲(如圖2(a)、(b),信噪比為10的數(shù)據(jù)對(duì)比),對(duì)比串聯(lián)、并聯(lián)兩種特征融合方式,支持向量機(jī)采用多項(xiàng)式核函數(shù)進(jìn)行試驗(yàn),Voice結(jié)果如圖2(c)所示。
圖2 聲音噪聲實(shí)驗(yàn)結(jié)果
由圖1(c)可見(jiàn),隨聲音信噪比的提高,聲音識(shí)別率不斷提高,兩種方式融合后的識(shí)別率也會(huì)有所提高,并且在信噪比低時(shí),高于任意一種單模態(tài)識(shí)別率。當(dāng)信噪比提升到27時(shí),聲音識(shí)別率大幅高于圖像識(shí)別率,特征融合下的識(shí)別率受圖像特征的影響,會(huì)比聲音識(shí)別率略低,但也僅次之。由此可得,對(duì)于聲音噪聲的影響,兩種方法融合后具有非常強(qiáng)的抗噪性。
對(duì)比兩種融合方法,串聯(lián)融合后的識(shí)別率會(huì)略高于并聯(lián)融合后的識(shí)別率,但并不明顯,主要原因是特征串聯(lián)融合后維度升高,兩種特征在更高維的空間中更加易于聚集分類,但是影響并不大。
人臉數(shù)據(jù)加以0~0.5比例椒鹽噪聲(如圖3(a)(b),噪聲比例為0.1的對(duì)比),PCA降維至8維,聲音數(shù)據(jù)不做處理,采用串聯(lián)特征融合方式,支持向量機(jī)采用多項(xiàng)式核函數(shù)進(jìn)行試驗(yàn),結(jié)果如圖3(c)所示。
圖3 圖像噪聲實(shí)驗(yàn)結(jié)果
由圖3(c)可以看出,在沒(méi)有聲音噪聲的情況下,聲音識(shí)別的準(zhǔn)確率非常高,受其影響,融合后的識(shí)別率也一直比圖像識(shí)別率要高。隨圖像噪聲不斷增強(qiáng),圖像的識(shí)別率逐漸降低,兩種特征融合后的識(shí)別率也會(huì)隨之降低,但一直在0.92以上。由此可得,在圖像噪聲條件下,兩種融合方法具有較強(qiáng)的抗噪性和穩(wěn)定性。
對(duì)比兩種融合方法,會(huì)發(fā)現(xiàn)具有相同的變化趨勢(shì),都受圖像特征的影響而降低。另外,同樣會(huì)發(fā)現(xiàn)串聯(lián)融合的識(shí)別率會(huì)略高于并聯(lián)融合的識(shí)別率。
分別采用徑向基核函數(shù)與Sigmoid核函數(shù)進(jìn)行以上實(shí)驗(yàn)進(jìn)行對(duì)比,結(jié)果圖4所示。
圖4 不同核函數(shù)實(shí)驗(yàn)結(jié)果
由圖4可以看出:在該兩種特征條件下,使用徑向基核函數(shù)的支持向量機(jī)對(duì)所有特征的分類識(shí)別效果要優(yōu)于多項(xiàng)式核函數(shù)。且在任何一種噪聲環(huán)境下,融合算法識(shí)別率都能達(dá)到0.96以上。采用Sigmoid核函數(shù)的支持向量機(jī)對(duì)數(shù)據(jù)的分類,會(huì)導(dǎo)致融合特征受聲音特征的影響較大,聲音識(shí)別率低時(shí),融合識(shí)別率也會(huì)很低,尤其是并聯(lián)后的特征,識(shí)別率出現(xiàn)大幅降低;融合特征也會(huì)受到圖像特征的影響,圖像噪聲增強(qiáng)時(shí),識(shí)別率出現(xiàn)一定的下降,串聯(lián)特征效果優(yōu)于并聯(lián)特征的效果。
在本文算法提取的特征下,對(duì)比三種核函數(shù)的效果,可以得到,徑向基核函數(shù)的分類識(shí)別效果最好,Sigmoid核函數(shù)的支持向量機(jī)整體分類識(shí)別效果要低于另外兩種核函數(shù)的效果,
本文針對(duì)單一模態(tài)身份識(shí)別率易受噪聲影響的問(wèn)題,提出將語(yǔ)音與聲音特征進(jìn)行融合的方法,并結(jié)合理論進(jìn)行了實(shí)驗(yàn)驗(yàn)證。經(jīng)實(shí)驗(yàn)證明,在本文選取的兩種特征下,串聯(lián)融合效果要比并聯(lián)融合效果好一點(diǎn),同時(shí)也存在缺點(diǎn):由于維度較高,占用存儲(chǔ)內(nèi)存會(huì)增大,分類識(shí)別時(shí)間會(huì)較長(zhǎng)。但在當(dāng)今硬件設(shè)備下,該影響并不會(huì)構(gòu)成應(yīng)用上的矛盾。同時(shí)也驗(yàn)證了在該特征下,徑向基核函數(shù)的分類識(shí)別效果要優(yōu)于多項(xiàng)式核函數(shù)與Sigmoid核函數(shù)。最后,身份特征融合的方法具有較強(qiáng)的抗噪性,并且識(shí)別率也較高,可以滿足實(shí)際的需要,具有一定的實(shí)用價(jià)值。