曾桂南,吳戀,何燕琴,郭清粉
(1.貴州師范學(xué)院,數(shù)學(xué)與大數(shù)據(jù)學(xué)院,貴陽550018;2.貴州師范學(xué)院,大數(shù)據(jù)科學(xué)與智能工程研究院,貴陽550018)
從古至今,聲音在人類信息傳遞中就有著非常關(guān)鍵的作用,是人類進(jìn)行交流的主要手段之一。隨著時(shí)代的變化,科學(xué)家們也開始嘗試?yán)萌寺曇籼匦哉归_一系列研究。因?yàn)椴煌f話人在發(fā)出一段聲音時(shí)所使用的發(fā)聲器官——舌頭、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面有所不同,以及受性格、年齡、語言習(xí)慣、地域差異等因素的影響,使得要想在現(xiàn)實(shí)生活中找到具有完全相同的聲紋特征的兩個(gè)人幾乎是不可能。盡管聲紋識別在目前的市場上不同于人臉識別、指紋識別具有大范圍的應(yīng)用,但手機(jī)、平板電腦等很多電子設(shè)備上內(nèi)置的麥克風(fēng),帶有錄音功能,具有成本低廉,不需要高性能的硬件支持等優(yōu)勢。
縱觀聲紋識別(說話人識別)技術(shù)的發(fā)展史,它大約可以被劃分為四個(gè)時(shí)期。而早在上世紀(jì)三四十年代,人們就有了對“聲紋”的一定認(rèn)識和了解,在1945年,美國Bell實(shí)驗(yàn)室的勞倫斯·科斯塔(L.G.Kersta)等人結(jié)合肉眼觀察語譜圖并進(jìn)行匹配,就此有了“聲紋”的概念。
20世紀(jì)40年代到70年代,也就是聲紋識別技術(shù)發(fā)展的第二階段,在這個(gè)階段,聲紋識別的理論體系已經(jīng)初步建立,而特征參數(shù)的提取以及選擇成為人們關(guān)注之焦點(diǎn),BS Atal提出了線性預(yù)測倒譜系數(shù)(LPCC),這種參數(shù)穩(wěn)定性較好,也讓該技術(shù)在準(zhǔn)確率上有了大程度的提高。此后,隨著數(shù)字信號處理技術(shù)的不斷發(fā)展,研究人員又相繼提出了線性預(yù)測編碼系數(shù)(LPC),LSP譜系數(shù)等間接特征參數(shù)。
在第三階段,也就是20世紀(jì)70年代到80年代末之間,在這個(gè)時(shí)期,研究人員將重心放在了特征參數(shù)的研究和尋找新的模式匹配方法上,在特征參數(shù)方面,Steven B.Davivs和Mermel Stein提出了特征參數(shù)——梅爾倒譜系數(shù)(MFCC),這種參數(shù)在不僅能在信號與噪聲的比例較低時(shí)仍能擁有較好的性能,而且比起線性預(yù)測倒譜系數(shù)(LPCC)更加符合人的聽覺特性,至今仍是應(yīng)用范圍較廣,最有效的特征參數(shù)之一。同時(shí),矢量量化技術(shù),動態(tài)時(shí)間規(guī)整等新的模式匹配有也相繼出現(xiàn)在人們的視野中。
從20世紀(jì)90年代到現(xiàn)在,基于最大似然概率統(tǒng)計(jì)的模型——高斯混合模型(Gaussian Mixture Model,GMM)的出現(xiàn),因具有簡單、可靠、性能穩(wěn)定的優(yōu)點(diǎn),成為了聲紋識別領(lǐng)域的重要技術(shù)。于1995年,由Cortes和Vapnik提出了支持向量機(jī)(Support Vector Machine,SVM),這種判決模型方法在處理小樣本、非線性及高維模式識別中展示出許多獨(dú)特的優(yōu)點(diǎn),使之迅速成為聲紋識別的重要建模方式之一。
提取特征是在實(shí)際生活中我們最常見到的任一聲紋識別系統(tǒng)中關(guān)鍵的過程。而LPCC是能夠體現(xiàn)聲道特性,表達(dá)說話人個(gè)性的重要特征參數(shù),也是LPC在倒譜域中的表示。它具有計(jì)算量少,容易實(shí)現(xiàn),元音描述好的優(yōu)點(diǎn),可以描述共振峰,去除激勵(lì)信息,也因此在語音識別中擁有較好的性能,使用范圍也較為廣泛。
ai代表線性預(yù)測系數(shù),cn由倒譜系數(shù)通過(1)式和(2)求導(dǎo),整理可以得到:
再令Z-1的同冪項(xiàng)系數(shù)相等,就可以推出線性預(yù)測倒譜系數(shù)。
Mel倒譜系數(shù)作為語音識別中被經(jīng)常使用的特征參數(shù),它的頻帶劃分是基于梅爾刻度上的等距劃分,相較于對數(shù)倒譜中的線性間隔頻帶,Mel標(biāo)度的頻率更適應(yīng)于人類的聽覺特性。f表示線性語的音頻率,fmel表示轉(zhuǎn)換到Mel域的梅爾頻率,它與正常的線性頻率有以下關(guān)系:
圖1
求解MFCC的主要過程:
(1)先對語音信號進(jìn)行預(yù)處理,S(n)用來表示得到的每一幀語音序列。
(2)對每一個(gè)短時(shí)分析窗,通過傅里葉變換得到對應(yīng)的頻譜。
(3)將(2)所得到的頻譜通過Mel濾波器組得到Mel頻譜,記Pm為輸出信號,Hm(k)為頻率濾波器組
(4)在Mel頻譜上取對數(shù),再進(jìn)行離散余弦變換。
3.1.1 高斯混合模型(GMM)
高斯混合模型(GMM)同隱馬爾可夫模型一樣,為近年來在“聲紋識別”中運(yùn)用頻率較高的一種概率統(tǒng)計(jì)模型。簡單來說,GMM是由單一高斯密度函數(shù)疊加而成的模型,可以用來近似表示任意事物形狀的密度分布。ak是系數(shù),φ(y|θk)是高斯密度分布,它滿足如下形式的概率分布模型:3.1.2 GMM-UBM
GMM-UBM是在GMM的基礎(chǔ)上的一種改進(jìn),在實(shí)際生活中,每一個(gè)說話人能夠提供的語音數(shù)據(jù)十分有限,而往往訓(xùn)練高斯混合模型又需要大量訓(xùn)練數(shù)據(jù)集,DA Reynolds的團(tuán)隊(duì)為了應(yīng)對這種情況的出現(xiàn),提出了通用背景模型(UBM),我們可以將不同音源來源人的聲音收集起來,將這些背景數(shù)據(jù)混合起來進(jìn)行訓(xùn)練,經(jīng)過自適應(yīng)算法即可建立目標(biāo)人說話模型。
基于GMM-UBM模型的聲紋確認(rèn)實(shí)現(xiàn)流程如圖2所示。
圖2
3.1.3 基于GMM-UBM、GMM的聲紋系統(tǒng)實(shí)驗(yàn)分析
在《基于“互聯(lián)網(wǎng)+”的聲紋識別技術(shù)在刑事案件偵破中的應(yīng)用研究》文獻(xiàn)中,實(shí)驗(yàn)選取女犯人和男犯人各50名,建立基于GMM-UBM和GMM兩種聲紋識別系統(tǒng),在不同條件中選取GMM混合數(shù)兩個(gè)系統(tǒng)的識別率,比較在不同的GMM混合度GMM與GMM-UBM的識別率。得到不相同混合度兩個(gè)系統(tǒng)的識別率,如表1所示。
表1
經(jīng)該實(shí)驗(yàn)結(jié)果可知,在GMM混合度相同的情形下,GMM-UBM系統(tǒng)的識別率要明顯優(yōu)于GMM系統(tǒng)。而GMM混合度增加時(shí),GMM-UBM系統(tǒng)識別率也明顯增大。
20世 紀(jì) 八 十 年 代Rumelhart、Williams、Hinton、LeCun等多人發(fā)明的多層感知機(jī)(Multi-Layer Percep?tron,MLP)改善了單層感知機(jī)的不足之處,擺脫了早期離散傳輸函數(shù)的束縛,解決了之前無法模擬異或邏輯的問題。DNN有時(shí)也可以被稱作多層感知機(jī),也可以將其理解成包含著很多隱藏層的神經(jīng)網(wǎng)絡(luò),如果按照不同層位置的劃分,可以將其分三層:輸入層、隱藏層,以及輸出層。其結(jié)構(gòu)如圖3所示。
3.3.1 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
2014年,計(jì)算機(jī)科學(xué)家LeCun提出了一種新的深度學(xué)習(xí)模型——卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),它是現(xiàn)在被應(yīng)用于生物特征識別最流行的網(wǎng)絡(luò)之一。通過人們在人工智能領(lǐng)域的持續(xù)探索,CNN在語音識別、圖像識別、圖像分割等領(lǐng)域獲得了巨大的成功。卷積神經(jīng)網(wǎng)絡(luò)通常包括卷積層、線性整流層、池化層和全連接層。
在卷積神經(jīng)網(wǎng)絡(luò)中,每層卷積層包含非常多的卷積單元,各個(gè)卷積單元的參數(shù)又是由向后傳播算法得出的。線性整流層,這一層神經(jīng)的活化性函數(shù)使用線性整流,池化下采樣,是一種降采樣操作。目的是為了減少特征圖,把特征切分為幾個(gè)小片。池化層池化方法眾多,一般包含最大池化、均值池化、高斯池化、可訓(xùn)練池化。而全連接層(Fully Connected Layers),在整個(gè)卷積神經(jīng)網(wǎng)絡(luò)相當(dāng)于“分類器”將所有的局部特征結(jié)合成為全局特征,用來計(jì)算最后每一類的得分。CNN網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4
(2)CNN-LSTM
長短時(shí)記憶網(wǎng)絡(luò)被看作是一種特殊結(jié)構(gòu)的RNN,而在處理中長時(shí)間的時(shí)序關(guān)系時(shí),LSTM更具優(yōu)勢,因此往往會用到LSTM來解決,根據(jù)CNN網(wǎng)絡(luò)、LSTM網(wǎng)絡(luò)的特性,將兩個(gè)網(wǎng)絡(luò)串聯(lián)結(jié)合,構(gòu)建了以下系列模型如圖5所示。
圖5
在《基于CNN-LSTM網(wǎng)絡(luò)的聲紋識別研究》一文的實(shí)驗(yàn)中[7],對比CNN、DNN、LSTM、CNN-LSTM在不同迭代次數(shù)下的準(zhǔn)確率結(jié)果如表2所示。
表2
不難看出,CNN-LSTM網(wǎng)絡(luò)能夠在較少次數(shù)的迭代中達(dá)到95.42%的準(zhǔn)確率,從時(shí)間效率和準(zhǔn)確率上看,CNN-LSTM網(wǎng)絡(luò)更勝一籌。
目前,聲紋識別已在生活的多個(gè)方面有了應(yīng)用,早在20世紀(jì)80年代,國外的Home Shopping Network就在基于語音訂貨的系統(tǒng)中就已經(jīng)結(jié)合了聲紋識別的相關(guān)技術(shù),而同國外相比,盡管我國在這方面的技術(shù)研究起步較晚,但也不甘于落后,像國內(nèi)的阿里、百度、騰訊等大型公司已經(jīng)有了相應(yīng)的產(chǎn)品和應(yīng)用,在2014年支付寶App就推出了可以根據(jù)每個(gè)人聲音特性的不同從而實(shí)現(xiàn)的非密碼支付的功能,同年,在iOS上線的WeChat增加了“聲音鎖”的功能,用聲音即可快速實(shí)現(xiàn)登錄。
總體上說,聲紋識別在生活中的應(yīng)用,大致有以下幾個(gè)方面。
軍事情報(bào)方面:用于對電話的監(jiān)聽與追蹤。
在社會保險(xiǎn)領(lǐng)域:讓身體欠佳、出行不便的老年人遠(yuǎn)程就可實(shí)現(xiàn)身份認(rèn)證。
在進(jìn)行網(wǎng)絡(luò)交易時(shí):例如手機(jī)網(wǎng)絡(luò)支付、掌上銀行等平臺身份確認(rèn)時(shí),結(jié)合密碼支付可以提供更高的安全保護(hù)機(jī)制。
刑偵方面:使用聲紋識別,可通過現(xiàn)場遺留的少量的語音消息可以縮小偵查范圍判斷犯罪嫌疑人的身份特征從而實(shí)施追捕,大大提高辦案效率。
由于聲紋識別相關(guān)設(shè)備造價(jià)低廉,在保安、證件防偽方面也能起到相關(guān)作用,可以用于小區(qū)門禁系統(tǒng),對進(jìn)出小區(qū)住戶進(jìn)行記錄,還可以用于銀行自助取款機(jī),快速識別取款人身份,既安全、便捷,還可以防止有些老年人因?yàn)橛洸蛔∶艽a而無法取款的現(xiàn)象。
如今,就準(zhǔn)確率而言,聲紋識別技術(shù)的識別的準(zhǔn)確率在理論上已經(jīng)高達(dá)百分之九十幾,但在現(xiàn)實(shí)生活中,說話人自身具有的獨(dú)有氣質(zhì)、身體狀況、年齡增長、情感波動等其他干擾因素,導(dǎo)致實(shí)際與實(shí)驗(yàn)中的理想值還存在一定偏差,仍可能出現(xiàn)對說話人身份產(chǎn)生誤判的情況,因此可以提高準(zhǔn)確率的方法還需要人們更進(jìn)一步的發(fā)現(xiàn)、探討、研究。當(dāng)然,過去的科學(xué)技術(shù)在不斷地被更新,近些年深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺、自動駕駛等諸多領(lǐng)域都取得了驚人的成績,在語音識別方面也有了新的突破,相信在不久的未來會有更多、更好的方法去解決我們現(xiàn)在所面臨的困難和挑戰(zhàn)。