黃 亮,潘 平,周 超
(貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽(yáng) 550025)(*通信作者電子郵箱panping_17@163.com)
基于量子隧穿效應(yīng)的說(shuō)話人真?zhèn)舞b別方法
黃 亮,潘 平*,周 超
(貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽(yáng) 550025)(*通信作者電子郵箱panping_17@163.com)
針對(duì)語(yǔ)音信號(hào)的非結(jié)構(gòu)化特點(diǎn),提出了一種基于量子隧穿效應(yīng)的說(shuō)話人真?zhèn)舞b別方法。以量子隧穿效應(yīng)為理論依據(jù),首先,在分析語(yǔ)音信號(hào)分幀的量子特性基礎(chǔ)上,將每一幀語(yǔ)音信號(hào)看作一個(gè)量子態(tài),實(shí)現(xiàn)算法的量子化;然后,利用勢(shì)壘能分離能量的特性,通過(guò)構(gòu)建勢(shì)壘組以提取信號(hào)的能量譜特征,并以此作為特征參數(shù);最后,通過(guò)高斯混合模型(GMM)進(jìn)行語(yǔ)音信號(hào)建模,完成說(shuō)話人的真?zhèn)舞b別。仿真結(jié)果表明,相對(duì)于傳統(tǒng)方法,利用量子隧穿效應(yīng)理論實(shí)現(xiàn)說(shuō)話人鑒別可以有效降低算法的復(fù)雜度,提高識(shí)別的識(shí)別率和可靠性,為量子信息理論和說(shuō)話人真?zhèn)舞b別方法提供了新的研究途徑。
說(shuō)話人;真?zhèn)舞b別;量子隧穿效應(yīng);高斯混合模型
隨著以語(yǔ)音信號(hào)為代表的數(shù)字多媒體技術(shù)對(duì)現(xiàn)代社會(huì)越來(lái)越強(qiáng)的影響,說(shuō)話人真?zhèn)舞b別已經(jīng)成為了當(dāng)下研究的熱點(diǎn)之一。20世紀(jì)70年代后期,矢量量化(Vector Quantization, VQ)[1]作為一種新的數(shù)據(jù)壓縮和編碼技術(shù)廣泛用于說(shuō)話人識(shí)別等領(lǐng)域。到了80年代,隱馬爾可夫模型(Hidden Markov Model, HMM)[2-3]和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)[4]在說(shuō)話人識(shí)別領(lǐng)域的成功應(yīng)用,使得說(shuō)話人識(shí)別技術(shù)可以應(yīng)用于大詞匯量、連續(xù)語(yǔ)音和非特定人等困難條件。1995年,Reynolds等[5]利用高斯混合模型提出了一種說(shuō)話人身份識(shí)別方法;2006年,郭春霞[6]使用Mel頻率倒譜系數(shù)技術(shù)(Mel Frequency Cepstrum Coefficient, MFCC)研究了說(shuō)話人識(shí)別系統(tǒng);2013年,潘平等[7]研究了隨機(jī)共振在語(yǔ)音真實(shí)性檢測(cè)方面的應(yīng)用。
然而,到目前為止關(guān)于語(yǔ)音的量子理論及其應(yīng)用研究仍然處于起步探索階段,許多研究只能從某個(gè)應(yīng)用或原始理論的局部觀點(diǎn)出發(fā),并未認(rèn)識(shí)到這一理論的內(nèi)涵。本文提出一種基于量子隧穿理論的說(shuō)話人真?zhèn)舞b別方法,旨在探索量子隧穿理論的應(yīng)用。以說(shuō)話人非結(jié)構(gòu)化數(shù)據(jù)為特例,來(lái)解決目前基于非結(jié)構(gòu)化數(shù)據(jù)特征提取所面臨的基于小數(shù)據(jù)樣本下的因果關(guān)系的局限性,為大數(shù)據(jù)下的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的特征提取提供一種可行的研究途徑,為大數(shù)據(jù)分析技術(shù)提供一種基于微觀解釋的宏觀預(yù)測(cè)機(jī)理提供一種解決方案。仿真結(jié)果表明,這種方法在降低算法復(fù)雜度和時(shí)間復(fù)雜度的同時(shí),可獲得預(yù)期的結(jié)果。
對(duì)于一個(gè)允許散射態(tài)和束縛態(tài)[8]的有限方勢(shì)壘:
(1)
其中v0是勢(shì)壘的高度,即勢(shì)能,可根據(jù)需要進(jìn)行相應(yīng)的設(shè)置。由于語(yǔ)音信號(hào)的能量(或功率譜密度)恒大于零,因此,本算法僅考慮散射態(tài)(E>0)。
圖1 矩形勢(shì)壘
(2)
如果入射波來(lái)自于左邊,右邊沒(méi)有其他入射波的干擾,則通解為:
(3)
(4)
利用其中的兩個(gè)方程消去積分常數(shù)C和D,就可以得到A和F的關(guān)系式:
(5)
定義:對(duì)于某個(gè)特定的勢(shì)壘,透射波的概率幅與入射波概率幅之比,稱為該波通過(guò)該勢(shì)壘的隧穿系數(shù),即有:
(6)
量子隧穿系數(shù)表征了一列波通過(guò)某一勢(shì)壘的概率,由此式(6)可見(jiàn),隧穿系數(shù)T是能量E的函數(shù),它們之間的關(guān)系如圖2。
圖2表明,能量越大的粒子,透射過(guò)勢(shì)壘的概率就越大,即波的穿透能力越強(qiáng);若粒子的能量足夠大,透射系數(shù)T就越接近1,實(shí)現(xiàn)完全隧穿。若假設(shè)一個(gè)閾值T0=0.95,并設(shè)波的透射系數(shù)T>T0,根據(jù)式(6),可以得到一組確定的、對(duì)應(yīng)能量值ne0(圖中虛線右側(cè)的所有離散值),其中e0是這個(gè)勢(shì)壘所允許完全透射的最低能量。并根據(jù)德布羅意波公式e0=hf0和抽樣定理可將每個(gè)抽樣頻率與能量對(duì)應(yīng)。因?yàn)?,?duì)抽樣后的功率譜的譜線值理解為在單位抽樣時(shí)間內(nèi)所消耗的能量值。因此,對(duì)于每一離散的譜線值就對(duì)應(yīng)為一確定的頻率。
圖2 能量函數(shù)與隧穿系數(shù)的關(guān)系
語(yǔ)音信號(hào)通常服從兩種分布:較短語(yǔ)音信號(hào)服從Gauss分布;較長(zhǎng)語(yǔ)音信號(hào)Laplace分布。同一說(shuō)話人,由于自身生物特性結(jié)構(gòu)等因素的印象,對(duì)于同樣的語(yǔ)言內(nèi)容(單字、短語(yǔ)或長(zhǎng)句等),發(fā)音頻率相同或在誤差允許的范圍內(nèi)相似。對(duì)于不同的說(shuō)話人,一方面發(fā)出的聲音信號(hào)存在差異,這種差異就表現(xiàn)為頻率特征上的差異,可由處于不同穩(wěn)定的量子態(tài)進(jìn)行描述;另一方面,不同的語(yǔ)音信號(hào),當(dāng)對(duì)其進(jìn)行分幀處理后,由于每幀的時(shí)間很短,約為20 ms左右,服從Gauss分布。因此,每一分幀語(yǔ)音信號(hào)可視為一個(gè)包含一組頻率特征的量子波函數(shù)。不同的頻率,通過(guò)相同勢(shì)壘,其隧穿系數(shù)不同,所對(duì)應(yīng)的隧穿后的頻率不同。如果設(shè)置一組勢(shì)壘,讓每一個(gè)勢(shì)壘有唯一的一個(gè)頻率透射,即可構(gòu)建一組特征向量(模式),這些特征都是非負(fù)的,且組成了一個(gè)隨機(jī)向量,因此可直接用正實(shí)數(shù)向量(高斯向量)表征,而無(wú)需再用酉高斯向量表示。根據(jù)向量中元素按擬合,降維成二維概率密度函數(shù)作為模式,通過(guò)最大似然估計(jì),能實(shí)現(xiàn)說(shuō)話人的識(shí)別。
根據(jù)文獻(xiàn)[10]的方法,利用本特征提取算法,獲得每一個(gè)勢(shì)壘的Gauss分布函數(shù)。由于有n個(gè)勢(shì)壘,線性疊加仍然為Gauss分布。因此,可以得到分布函數(shù),如式(7):
(7)
其中:μ表示通過(guò)勢(shì)壘的平均值,σ表示通過(guò)勢(shì)壘的標(biāo)準(zhǔn)差。
根據(jù)上述思想,并依據(jù)人耳對(duì)頻率的響應(yīng)特征[11-12],構(gòu)造基于72階的量子勢(shì)壘,這類似于構(gòu)建72階特征頻率濾波,簡(jiǎn)易模型如圖3所示,這個(gè)模型本身就隱含了一組頻率特征向量。
圖3 量子勢(shì)壘
根據(jù)前面的分析,構(gòu)造一組特征向量(頻率)為:
fn=A′π2(a0+0.000 34n)2+B′π(1+0.09n)v0+C′;
n=0,1,2,…
(8)
其中:n為勢(shì)壘的序號(hào);a0和v0為初始勢(shì)壘的寬度和高度;根據(jù)參數(shù)估計(jì)的一般理論,A′、B′和C′為訓(xùn)練參數(shù);若設(shè)an=a0+0.000 34n和vn=(1+0.09n)v0分別是第n個(gè)勢(shì)壘的寬度和高度。若說(shuō)話人最低頻率為55 Hz,則通過(guò)式(8)可以計(jì)算出每個(gè)勢(shì)壘對(duì)應(yīng)的頻率值。并假設(shè)透射系數(shù)閾值T0=0.95,則在歸一化后,初始勢(shì)壘v0的寬度和高度為a0=0.001和v0=1.2。
由于一幀語(yǔ)音信號(hào)本質(zhì)上是微觀粒子的集體行為的表現(xiàn),是平衡的隨機(jī)信號(hào),可視為一個(gè)定態(tài)。因此,對(duì)于一幀語(yǔ)音信號(hào)的量子波函數(shù),根據(jù)量子理論解釋為描述了粒子出現(xiàn)在確定地點(diǎn)的概率,但也可解釋為獲得特定能量En的概率。由于語(yǔ)音信號(hào)本質(zhì)上是隨機(jī)的和不確定的[13],對(duì)語(yǔ)音信號(hào)的采樣就如同對(duì)量子波函數(shù)進(jìn)行了測(cè)量,使之坍縮為確定的功率譜密度和與之對(duì)應(yīng)的頻率。根據(jù)以上分析,為了實(shí)現(xiàn)語(yǔ)音信號(hào)的特征提取,本實(shí)驗(yàn)構(gòu)造了如圖4所示的特征參數(shù)提取模型。
圖4 基于量子隧穿效應(yīng)的說(shuō)話人特征參數(shù)提取模型
模型中,端點(diǎn)檢測(cè)的目的是去除不屬于語(yǔ)音信號(hào)的部分;預(yù)加重處理是保證高頻信號(hào)的完整性;信號(hào)分幀的目的是為了讓信號(hào)盡可能地平穩(wěn)以保證信號(hào)的定態(tài)特性,幀長(zhǎng)為15 ms,幀移為5 ms;當(dāng)每幀語(yǔ)音通過(guò)勢(shì)壘組后,可獲得一個(gè)參數(shù),這個(gè)參數(shù)就是量化后的穿透能力,意味著這幀信號(hào)能透射過(guò)多少個(gè)勢(shì)壘,可以用來(lái)作為特征參數(shù);在識(shí)別部分,根據(jù)薛定諤方程的解形式,為每個(gè)說(shuō)話人構(gòu)建一個(gè)波函數(shù)(二維概率密度函數(shù)),這個(gè)波函數(shù)就表征了說(shuō)話人的模式。
為了驗(yàn)證這種方法的有效性,仿真實(shí)驗(yàn)選取了18個(gè)說(shuō)話人為實(shí)驗(yàn)對(duì)象,每個(gè)人分別錄取6段語(yǔ)音,包括單詞、短語(yǔ)、短句和長(zhǎng)句。語(yǔ)音信號(hào)的采樣頻率為8 000 Hz。所提取的參數(shù)服從波函數(shù)解的分布。通過(guò)均值和標(biāo)準(zhǔn)差就可以為每個(gè)說(shuō)話人構(gòu)建一個(gè)概率密度函數(shù)。每一幀有36個(gè)觀測(cè)值,假設(shè)有n幀,總觀測(cè)值構(gòu)成可得每個(gè)人的正態(tài)分布曲線。仿真結(jié)果如圖5和圖6,通過(guò)對(duì)向量求均值和方差,如表1所示。
對(duì)比圖5與圖6的各對(duì)應(yīng)子圖,(a)和(b)顯示了同一說(shuō)話人的特征,(c)和(d)為不同的人在不同時(shí)間(間隔1個(gè)月)的特征。很明顯,由于每個(gè)人的特征不同,曲線并不相同(注意縱軸的單位不同)。具體數(shù)據(jù)如表1所示。
由表1可清晰地看到,在語(yǔ)音內(nèi)容相同的情況下,不同的人具有不同的參數(shù)值,同一個(gè)人的前后兩次的參數(shù)變化并不大;而不同人說(shuō)相同內(nèi)容時(shí),參數(shù)值相差很大。
圖7和圖8的各對(duì)應(yīng)子圖顯示了自同一個(gè)說(shuō)話人的四段不同語(yǔ)音內(nèi)容,但參數(shù)值卻十分相近,擬合的曲線也十分一致。詳細(xì)結(jié)果如表2所示。
在表2中,選取了兩個(gè)實(shí)驗(yàn)對(duì)象。來(lái)自同一個(gè)人的參數(shù)非常接近,除了第2個(gè)人的第5段語(yǔ)音,可以作為奇異數(shù)據(jù)處理。這些參數(shù)值可以用作訓(xùn)練數(shù)據(jù)來(lái)為每個(gè)說(shuō)話人構(gòu)造一個(gè)唯一的概率密度函數(shù)。一方面,由于模型去除了經(jīng)典特征提取模型中的離散傅里葉變換,大大降低了算法的復(fù)雜度。與MFCC相比,若MFCC采用24階濾波器組,即特征參數(shù)為24維,那么,在識(shí)別部分需要將高維向量降維才能作出判別。在本模型中,雖然采用72個(gè)勢(shì)壘組,維度比MFCC高,可獲得更多的信息,從表面上看,似乎增加了計(jì)算的復(fù)雜度。事實(shí)上,由于在特征提取中已嵌入了自動(dòng)降維處理,可直接輸出二維特征密度函數(shù),因此大大降低了識(shí)別部分的難度與計(jì)算的復(fù)雜性。
另一方面,由于將分幀后的語(yǔ)音幀直接視為量子態(tài),無(wú)需作量子化處理。因此,在同一個(gè)經(jīng)典計(jì)算機(jī)上,本實(shí)驗(yàn)利用Matlab做了大量的仿真實(shí)驗(yàn),通過(guò)對(duì)MFCC進(jìn)行了相關(guān)的運(yùn)算速度比較,如表3所示,結(jié)果顯示出本方法的優(yōu)勢(shì)。
表1 不同說(shuō)話人相同語(yǔ)音內(nèi)容的實(shí)驗(yàn)結(jié)果
表2 同一人不同語(yǔ)音內(nèi)容的實(shí)驗(yàn)結(jié)果
表3 識(shí)別算法運(yùn)算時(shí)間的比較
本文提出了一種基于量子理論的說(shuō)話人真?zhèn)巫R(shí)別方法,利用量子勢(shì)壘組提取說(shuō)話人特征參數(shù),利用量子隨機(jī)理論處理隨機(jī)信號(hào)。由于每個(gè)人的均值和方差不同,所以分布曲線不同,因此可以通過(guò)對(duì)曲線的識(shí)別區(qū)分說(shuō)話人。在經(jīng)典計(jì)算機(jī)上的仿真結(jié)果表明,在同樣的時(shí)間內(nèi),這種方法大大地降低了算法的復(fù)雜度,將語(yǔ)音信號(hào)的穿透能力量化,并以此為特征參數(shù),雖然特征數(shù)增加了,但是通過(guò)向量構(gòu)造出二維說(shuō)話人特征曲線,同時(shí)省略了識(shí)別算法,從而大大降低了說(shuō)話人識(shí)別系統(tǒng)的復(fù)雜度。這種方法將為說(shuō)話人識(shí)別,特別是特征參數(shù)的提取提供了一種新的研究途徑,為非結(jié)構(gòu)化數(shù)據(jù)的聚類研究提供了一種新方法。
圖5 不同說(shuō)話人同一語(yǔ)音內(nèi)容的頻數(shù)直方圖
圖6 不同說(shuō)話人同一語(yǔ)音內(nèi)容的曲線擬合圖
圖7 同一說(shuō)話人不同語(yǔ)音內(nèi)容的頻數(shù)直方圖
圖8 同一說(shuō)話人不同語(yǔ)音內(nèi)容的曲線擬合圖
References)
[1] HUANG J, SCHULTHEISS P M. Block quantization of correlated Gaussian random variables [J]. IEEE Transactions on Communication Systems, 1963, 11(3): 289-296.
[2] LEVINSON S E, RABINER L R, SONDHI M M. An introduction to the application of the theory of probabilistic functions of a Markov process to automatic speech recognition [J]. Bell System Technical Journal, 1983, 62(4): 1035-1074.
[3] RABINER L R. A tutorial on hidden Markov models, selected applications in speech recognition [J]. Proceedings of the IEEE, 1989, 77(2): 257-286.
[4] WAIBEL A, HANAZAWA T, HINTON G, et al. Phoneme recognition using time-delay neural networks [J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1989, 37(3): 328-339.
[5] REYNOLDS D A, ROSE R C. Robust text-independent speaker identification using Guassian mixture speaker models [J]. IEEE Transactions on Speech and Audio Processing, 1995, 3(1): 72-83.
[6] 郭春霞.基于MFCC的說(shuō)話人識(shí)別系統(tǒng)研究[D].西安:西安電子科技大學(xué), 2006.(GUO C X. The study of speaker recognition system based on MFCC [D]. Xi’an: Xidian University, 2006.)
[7] 潘平,羅輝,李換雙. 基于隨機(jī)共振的語(yǔ)音真實(shí)性檢測(cè)方法[J].計(jì)算機(jī)工程,2013,39(5):277-279.(PAN P, LUO H, LI H S. Voice authenticity detection method based on stochastic resonance [J] . Computer Engineering, 2013, 39(5): 277-279.)
[8] GRIFFITHS D J. Introduction to Quantum Mechanics [M]. 北京:機(jī)械工業(yè)出版社, 2012.(GRIFFITHS D J. Introduction to Quantum Mechanics [M]. Beijing: China Machine Press, 2012.)
[9] 田庚,潘平,劉琦.基于量子遂穿效應(yīng)的數(shù)字錄音資料真實(shí)性鑒別[J].電腦知識(shí)與技術(shù),2016,12(6):197-200.(TIAN G, PAN P, LIU Q. The authenticity of digital recording data identification based on quantum tunnelling effect [J]. Computer Knowledge and Technology, 2016, 12(6): 197-200.)
[10] 余華,方棣棠,李樹(shù)青,等.基于正態(tài)分布假設(shè)的非特定人語(yǔ)音識(shí)別[EB/OL]. [2017- 01- 06]. http://cpfd.cnki.com.cn/Article/CPFDTOTAL-SEER199410001045.htm.(YU H, FANG D T, LI S Q, et al. Speech recognition based on normal distribution hypothesis [EB/OL]. [2017- 01- 06]. http://cpfd.cnki.com.cn/Article/CPFDTOTAL-SEER199410001045.htm.)[11] 何朝霞,潘平,羅輝.基于非線性共振的說(shuō)話人特征提取研究與仿真[J].科學(xué)技術(shù)與工程,2012,12(25):6507-6510.(HE Z X, PAN P, LUO H. Research and emulation of speaker feature parameter extraction based on nonlinear resonances [J]. Science Technology and Engineering, 2012, 12(25): 6507-6510.)
[12] 潘平,何朝霞.基于duffing隨機(jī)共振的說(shuō)話人特征提取方法[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(35):123-125.(PAN P, HE Z X. Method of speaker feature parameter extraction based on duffing stochastic resonance [J]. Computer Engineering and Applications, 2012, 48(35): 123-125.)
[13] 趙力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2003:26-30.(ZHAO L. Speech Signal Processing [M]. Beijing: China Machine Press, 2003: 26-30.)
Speakerauthenticationmethodbasedonquantumtunnelingeffect
HUANG Liang, PAN Ping*, ZHOU Chao
(CollegeofComputerScienceandTechnology,GuizhouUniversity,GuiyangGuizhou550025,China)
Aiming at the unstructured characteristics of speech signal, a method of speaker authentication based on quantum tunneling effect was proposed. Based on quantum tunneling effect, the quantum properties of speech signal framing analyzed, and each speech signal frame was regarded as a quantum state, and the quantization of the algorithm was realized. And then the potential barrier was used to separate the energy characteristics. The barrier group was constructed to extract the energy spectrum characteristics of the signal and used it as the characteristic parameter. The speech signal modeling was finally carried out by the Gaussian Mixture Model (GMM) to complete the authentication of the speaker. The simulation results show that compared with the traditional method, the use of quantum tunneling theory to achieve speaker identification can reduce the complexity of algorithm effectively, improve the discrimination and provide a new direction for speaker authentication and quantum information theory.
speaker; authentication; quantum tunneling effect; Gaussian Mixture Model (GMM)
2017- 03- 08;
2017- 07- 05。
貴州省科學(xué)技術(shù)基金資助項(xiàng)目(黔科合J字[2012]2132號(hào));貴州省教育廳自然科學(xué)研究項(xiàng)目(黔教合KY字(2015)367號(hào));貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院研究生創(chuàng)新基金資助項(xiàng)目(院創(chuàng)201703)。
黃亮(1993—),男,四川資陽(yáng)人,碩士研究生,主要研究方向:信息與通信系統(tǒng)安全; 潘平(1962—),男(苗族),貴州貴陽(yáng)人,副教授,主要研究方向:信息安全、語(yǔ)音信號(hào)處理; 周超(1994—),男(穿青人),貴州貴陽(yáng)人,碩士研究生,主要研究方向:信息與通信系統(tǒng)安全。
1001- 9081(2017)09- 2617- 04
10.11772/j.issn.1001- 9081.2017.09.2617
TN912.34
A
This work is partially supported by the Guizhou Provincial Science and Technology Fund ([2012]2132), the Natural Science Research Project of Education Department of Guizhou Province ((2015)367), the Graduate Innovation Fund of College of Computer Science and Technology, Guizhou University (201703).
HUANGLiang, born in 1993, M.S. candidate. His research interests include security of information and communication system.
PANPing, born in 1962, associate professor. His research interests include information security, audio signal processing.
ZHOUChao, born in 1994, M.S. candidate. His research interests include security of information and communication system.