何 凌,黃 華,劉肖珩
(1.四川大學(xué) 電氣信息學(xué)院,四川 成都610065;2.四川大學(xué) 基礎(chǔ)醫(yī)學(xué)與法醫(yī)學(xué)院,四川 成都610041)
隨著人機(jī)交互技術(shù)的迅速發(fā)展,人們期盼實(shí)現(xiàn)更為自然的人機(jī)交流,使計(jì)算機(jī)不僅能實(shí)現(xiàn)更為準(zhǔn)確的言語(yǔ)交流,也能理解人們的情感信息。語(yǔ)音信號(hào)作為人們最常用最便捷的信息傳輸媒體,不僅包含了大量的言語(yǔ)信息,還包含著非言語(yǔ)信息,如說話人的情感狀態(tài)。語(yǔ)音情感識(shí)別技術(shù)就是通過提取代表情感信息的語(yǔ)音特征參數(shù),并進(jìn)行模式識(shí)別,以此判斷說話人的情感狀態(tài)。語(yǔ)音情感識(shí)別在計(jì)算機(jī)科學(xué)的基礎(chǔ)上,還涉及到心理學(xué)、生理學(xué)、語(yǔ)言學(xué)、信號(hào)處理、模式識(shí)別等多學(xué)科的知識(shí)。這項(xiàng)技術(shù)可應(yīng)用于刑偵、駕駛、教育、醫(yī)學(xué)、安檢、服務(wù)、娛樂等眾多方面,是當(dāng)今多媒體時(shí)代非常活躍的一個(gè)研究方向[1-4]。
1990年,美國(guó)MIT多媒體實(shí)驗(yàn)室的 “情感編輯器”實(shí)現(xiàn)了對(duì)人類語(yǔ)音情感信號(hào)進(jìn)行采樣和識(shí)別的功能[5]。至此,語(yǔ)音情感識(shí)別技術(shù)作為一個(gè)新的研究領(lǐng)域迅速發(fā)展。隨著信息技術(shù)與數(shù)字語(yǔ)音技術(shù)的融合,涌現(xiàn)了多種語(yǔ)音情感特征參數(shù)算法[6-8]。大多數(shù)的特征參數(shù)采用基音頻率、共振峰參數(shù)、語(yǔ)速、Mel倒譜系數(shù)等參數(shù)。該類參數(shù)通過對(duì)語(yǔ)音信號(hào)的直接計(jì)算而得到。由人類的發(fā)音機(jī)理可知,由聲門產(chǎn)生的激勵(lì)信號(hào)通過聲道響應(yīng)及嘴唇輻射,得到語(yǔ)音信號(hào)。近年來(lái)研究表明,聲門信號(hào)作為語(yǔ)音激勵(lì)信號(hào),同樣包含了豐富的說話人情感信息。Moore等人[9]應(yīng)用聲門開閉時(shí)間及聲門閃動(dòng)信號(hào) (glottal timing and glottal shimmer),實(shí)現(xiàn)說話人情感狀態(tài)的識(shí)別。實(shí)驗(yàn)結(jié)果表明,采用聲門信號(hào)特征參數(shù),其判別結(jié)果優(yōu)于傳統(tǒng)的基音頻率及共振峰參數(shù)。Iliev等人[10]采用聲門特征參數(shù)對(duì)高興、生氣和悲傷三類情感進(jìn)行判別。對(duì)聲門信號(hào)情感特征的分析,更加完整了情感語(yǔ)音的研究。
本文基于語(yǔ)音信號(hào)生成的激勵(lì)系統(tǒng)、聲道及嘴唇輻射模型,通過逆濾波器及線性預(yù)測(cè)分析,實(shí)現(xiàn)聲門信號(hào)估計(jì),并提出了一種基于聲門信號(hào)特征參數(shù)和高斯混合模型的語(yǔ)音情感識(shí)別算法。提出的算法與傳統(tǒng)的基音頻率及共振峰參數(shù)進(jìn)行比較。并討論了情感信息在聲門激勵(lì)處的產(chǎn)生。
人的發(fā)聲過程一般可分為,首先由肺部的收縮送出一段氣流,經(jīng)氣管到喉頭聲門處 (即聲帶開口處),對(duì)聲帶產(chǎn)生一個(gè)沖擊,使聲帶振動(dòng),然后通過聲道響應(yīng)及嘴唇輻射而形成語(yǔ)音[11]。由于發(fā)出不同聲音時(shí)聲道的形狀有所不同,所以產(chǎn)生不同的語(yǔ)音。根據(jù)語(yǔ)音產(chǎn)生機(jī)理,語(yǔ)音信號(hào)生成系統(tǒng)由3個(gè)部分組成:聲門激勵(lì)系統(tǒng)、聲道系統(tǒng)和嘴唇輻射系統(tǒng)。語(yǔ)音信號(hào)可以表述為聲門信號(hào) (glottal signal)通過聲道濾波器 (vocal tract filter)和嘴唇輻射濾波器 (lip radiation fitler)卷積得到,如圖1所示。
圖1 語(yǔ)音信號(hào)生成系統(tǒng)
其中g(shù)(t)為聲門信號(hào),s(t)為語(yǔ)音信號(hào)。通過Z變換,語(yǔ)音信號(hào)S(Z)可以表達(dá)為
其中嘴唇輻射濾波器R(Z)可以數(shù)學(xué)建模為
聲道濾波器V (Z)可以數(shù)學(xué)建模為全極點(diǎn)模型
其中系數(shù)ci可由線性預(yù)測(cè)分析 (linear prediction analysis)得到[12]。
聲門信號(hào)是一段偽隨機(jī)信號(hào),其中一段周期信號(hào)可以分為兩個(gè)階段:聲門打開階段和聲門閉合階段,如圖2所示。其中to表示聲門打開的時(shí)刻,tc為聲門閉合的時(shí)刻。聲門打開階段 (open phase)持續(xù)時(shí)間為to至tc,聲門閉合階段 (closed phase)持續(xù)時(shí)間為tc至to。T為一段聲門信號(hào)的周期
圖2 聲門信號(hào)
當(dāng)人類處于不同情感狀態(tài)時(shí),其發(fā)聲過程也相應(yīng)發(fā)生變化,與安靜狀態(tài)下有所不同。圖3和圖4所示為元音/a/在 “自然” (圖3)和 “生氣” (圖4)狀態(tài)下的一段聲門信號(hào)。
由圖3和圖4可以看出,當(dāng)說話人處于 “生氣”狀態(tài)時(shí),其語(yǔ)音的表達(dá)通常音量增加 (激勵(lì)幅度增大),同時(shí)音調(diào)升高 (聲門振動(dòng)頻率增加)且語(yǔ)速加快。由此可見,聲門激勵(lì)信號(hào)中包含著人類情感信息。通過對(duì)聲門信號(hào)某些特征參數(shù)的提取,結(jié)合模式識(shí)別分類器,能夠判別出不同的情感狀態(tài)。
本文采用的聲門信號(hào)特征參數(shù)如下:
(1)tmax:聲門信號(hào)幅值最大值時(shí)對(duì)應(yīng)的時(shí)刻。
(2)tmin:聲門信號(hào)幅值最小值時(shí)對(duì)應(yīng)的時(shí)刻。
(3)tc:聲門關(guān)閉時(shí)刻。
(4)to:聲門打開時(shí)刻。
(5)OQ:聲門打開時(shí)段與聲門信號(hào)偽周期的比率
(6)CQ:聲門閉合時(shí)段與聲門信號(hào)偽周期的比率
聲帶的開啟和閉合形成振動(dòng),聲帶的開啟和閉合活動(dòng)循環(huán)往復(fù)的進(jìn)行,就形成了一串周期性脈沖并將其氣流送入聲道。聲帶每開啟閉合一次的時(shí)間稱為基音周期T。本文采用自相關(guān)函數(shù)法求取語(yǔ)音的基音周期[13]。
由于語(yǔ)音信號(hào)為非平穩(wěn)隨機(jī)信號(hào),但在一定時(shí)間內(nèi)(1532毫秒)可以看做短時(shí)平穩(wěn)信號(hào),因此,對(duì)輸入的數(shù)字語(yǔ)音信號(hào)s[n]進(jìn)行分幀處理,得到分幀信號(hào)xm[n],每幀信號(hào)長(zhǎng)度為N,1秒內(nèi)幀個(gè)數(shù)為m。語(yǔ)音信號(hào)的自相關(guān)函數(shù)的定義為
短時(shí)自相關(guān)函數(shù)具有以下性質(zhì),當(dāng)時(shí)域信號(hào)為周期信號(hào)時(shí),自相關(guān)函數(shù)也是周期性函數(shù),兩者具有同樣的周期。濁音是一個(gè)準(zhǔn)周期信號(hào),在一幀語(yǔ)音內(nèi)基音周期近似恒定,因此,短時(shí)平均幅度差函數(shù)在濁音語(yǔ)音的基音周期上出現(xiàn)極小值。根據(jù)式 (7),計(jì)算自相關(guān)函數(shù)的周期,即可以得到語(yǔ)音信號(hào)的基音周期。尋找Rm(k)峰值Rm_peak,兩個(gè)峰值Rm_peak之間的距離即為基音頻率。
當(dāng)聲門激勵(lì)通過聲道時(shí),和聲道發(fā)生諧振和反諧振,從而使激勵(lì)的某一些頻譜的能量獲得增強(qiáng),而另一些被減弱,從而得到新的語(yǔ)音包絡(luò),這個(gè)包絡(luò)的的能量集中的峰處為共振峰。
本文采用LPC線性預(yù)測(cè)法計(jì)算共振峰參數(shù)[13]。LPC分析是用全極點(diǎn)濾波器模擬聲道傳輸函數(shù),通過求解一組線性預(yù)測(cè)系數(shù),獲得這個(gè)全極點(diǎn)濾波器模型。而這個(gè)模型的共軛極點(diǎn)對(duì)就對(duì)應(yīng)相應(yīng)的共振峰,利用極點(diǎn),可以得到共振峰頻率,共振峰帶寬,及共振峰幅度。
聲道傳輸函數(shù)的全極點(diǎn)模型表達(dá)式為
式中:階的線性預(yù)測(cè)器,ai——預(yù)測(cè)器系數(shù),G——線性系統(tǒng)增益。
對(duì)式 (8)求解極點(diǎn),每一個(gè)極點(diǎn)對(duì)應(yīng)一個(gè)共振峰,極點(diǎn)和共振峰之間的關(guān)系有
式中:θ——極點(diǎn)相位角,r——極點(diǎn)半徑,T——采樣周期。
通過式 (9)和式 (10)可以求解出相應(yīng)共振峰頻率F及帶寬B。
實(shí)驗(yàn)采用高斯混合模型作為判別器[14],對(duì)七種不同類型的情感進(jìn)行識(shí)別。
混合高斯模型的概率密度函數(shù)由M個(gè)高斯概率密度函數(shù)加權(quán)求和得到
其中x為一D維隨機(jī)向量,pii=1,2…M為混合加權(quán),bii=1,2…M為子分布密度。
實(shí)驗(yàn)給定GMM模型一組訓(xùn)練數(shù)據(jù),根據(jù)最大似然估計(jì) (maximum likelihood,ML)法確定模型參數(shù),建立模型。
實(shí)驗(yàn)采用公開的 BES (berlin emotion speech database)情感語(yǔ)料庫(kù)[15]。該情感語(yǔ)料庫(kù)由 Technical University Berlin大學(xué)錄制而成,語(yǔ)言為德語(yǔ),說話人包括5名男性和5名女性。受試者在自然狀態(tài)下模擬7種不同情感的表達(dá):自然、生氣、無(wú)聊、厭惡、害怕、高興和悲傷。語(yǔ)料庫(kù)共包括了535句語(yǔ)音信號(hào)。其語(yǔ)音庫(kù)的結(jié)構(gòu)見表1。
表1 BES情感數(shù)據(jù)庫(kù)結(jié)構(gòu)
情感語(yǔ)音識(shí)別系統(tǒng)分為兩個(gè)部分:特征參數(shù)提取模塊和模式識(shí)別模塊。其中模式識(shí)別模塊包含了兩個(gè)部分:首先是應(yīng)用訓(xùn)練語(yǔ)音信號(hào)實(shí)現(xiàn)模型的建立,然后采用測(cè)試語(yǔ)音信號(hào)實(shí)現(xiàn)對(duì)情感類別的判別。
實(shí)驗(yàn)從情感語(yǔ)料庫(kù)中隨機(jī)選取80%語(yǔ)音信號(hào)作為訓(xùn)練數(shù)據(jù),對(duì)輸入的語(yǔ)音信號(hào)提取特征參數(shù) (基音頻率、共振峰參數(shù)、聲門信號(hào)時(shí)域特征參數(shù)),將提取后的特征參數(shù)組作為識(shí)別器的輸入信號(hào),實(shí)現(xiàn)對(duì)高斯混合模型的參數(shù)估計(jì)。將剩下的20%語(yǔ)音信號(hào)作為測(cè)試數(shù)據(jù),提取相同的特征參數(shù)作為識(shí)別器的輸入,最后通過識(shí)別器得到判別結(jié)果。實(shí)驗(yàn)流程如圖5所示。該實(shí)驗(yàn)流程重復(fù)10次后,得到平均識(shí)別率為實(shí)驗(yàn)結(jié)果。
圖5 語(yǔ)音情感識(shí)別系統(tǒng)流程
實(shí)驗(yàn)首先對(duì)語(yǔ)音信號(hào)進(jìn)行去噪預(yù)處理,預(yù)處理后的語(yǔ)音信號(hào)進(jìn)行分幀處理,幀長(zhǎng)為32ms,對(duì)每幀信號(hào)計(jì)算其基音周期和共振峰參數(shù)。其流程如圖6所示。
圖6 基音頻率及共振峰參數(shù)計(jì)算
表2所示為應(yīng)用基音頻率及共振峰參數(shù)所得7種不同情感的識(shí)別正確率。
表2 情感識(shí)別正確率 (基頻和共振峰參數(shù))
圖7所示為提出的聲門信號(hào)時(shí)域特征參數(shù)的計(jì)算流程圖。實(shí)驗(yàn)首先對(duì)語(yǔ)音信號(hào)進(jìn)行去噪預(yù)處理,去噪后的語(yǔ)音信號(hào)應(yīng)用逆濾波器和LP分析估計(jì)其聲門信號(hào)。對(duì)聲門信號(hào)進(jìn)行分幀處理,幀長(zhǎng)為32ms,對(duì)每幀信號(hào)計(jì)算其時(shí)域特征參數(shù)組。
圖7 聲門參數(shù)計(jì)算
表3所示為應(yīng)用聲門信號(hào)時(shí)域特征參數(shù)所得7種不同情感的識(shí)別正確率。
表3 情感識(shí)別正確率 (聲門信號(hào)特征參數(shù))
由表2和表3可以看出,基于提出的特征提取算法的自動(dòng)情感識(shí)別率高于傳統(tǒng)的基音頻率和共振峰特征參數(shù)。
表4所示為應(yīng)用聲門信號(hào)時(shí)域特征參數(shù)組得到的對(duì)BES語(yǔ)料庫(kù)中七種不同情感類別的正確識(shí)別率。
表4 7種情感的正確識(shí)別率 (%)
由表4可以看出,自動(dòng)識(shí)別系統(tǒng)對(duì)于情感類別 “生氣”的識(shí)別正確率最高,這是因?yàn)槿祟愒诒磉_(dá)這類情感時(shí),其情感因素表達(dá)強(qiáng)度最為強(qiáng)烈,其特征參數(shù)的表征度較大。同時(shí)可以看出,系統(tǒng)對(duì)于 “厭惡”這類情感的識(shí)別率較低,這是因?yàn)樵擃惽楦械谋磉_(dá)較其他情感較弱,其特征參數(shù)的表征不明顯。系統(tǒng)對(duì)于情感 “高興”易判別為類別 “生氣”,這是因?yàn)榍楦蓄悇e “高興”與 “生氣”相比,其人類的表達(dá)有一定的相似度,如音量變大,語(yǔ)速變快等,使得其特征參數(shù)的表征相似度較大。
實(shí)驗(yàn)結(jié)果表明,本文提出的基于聲門信號(hào)時(shí)域特征參數(shù)的情感語(yǔ)音識(shí)別系統(tǒng),對(duì)7種不同類型的情感識(shí)別率較高,其識(shí)別正確率到達(dá)了61.9%,優(yōu)于采用傳統(tǒng)的基音頻率及共振峰的特征提取算法 (其識(shí)別正確率分別為50.6%和54.4%)。
同時(shí),實(shí)驗(yàn)結(jié)果表明,與語(yǔ)音信號(hào)相似,聲門信號(hào)作為語(yǔ)音的激勵(lì)信號(hào),同樣包含著豐富的人類情感特征。通過對(duì)聲門信號(hào)特征參數(shù)的分析,可以得到有效的語(yǔ)音情感識(shí)別系統(tǒng)。
Technical University Berlin大學(xué)在對(duì)BES情感語(yǔ)料庫(kù)進(jìn)行錄制的同時(shí),組織了受試者對(duì)該語(yǔ)料庫(kù)的7種不同類型的情感進(jìn)行了人工判別,其人類判別的正確率為73.5%??梢?,基于提出的特征參數(shù)提取算法的自動(dòng)語(yǔ)音情感識(shí)別系統(tǒng)獲得了較高的情感類別識(shí)別率,其正確率接近于人類的識(shí)別正確率。
:
[1]Becker Asano C,Kanda T,Ishi C.How about laughter perceived naturalness of two laughing humanoid robots [C]//ACII,Amsterdam,2009.
[2]Truong K P,David A,F(xiàn)ranciska M G.Speech-based recognition of self-reported and observed emotion in a dimensional space[J].Speech Communication,2012,54 (9):1049-1063.
[3]Susie M D,Marianne J U,Chris F,et al.Emotion recognition in huntingtons disease:A systematic review [J].Neuroscience&Biobehavioral Reviews,2012,36 (1):237-253.
[4]Voran S.Listener detection of talker stress in low-rate coded speech[C]//Proceedings of International Conference on A-coustics,Speech,and Signal Processing,2008:4813-4816.
[5]Picard R W.Affective computing [M].London,England:MIT Press,1997.
[6]Ayadi M,Kamel M,Karray F.Survey on speech emotion recognition:Features,classification schemes and databases[J].Pattern Recognition,2011,44 (3):572-587.
[7]Korba M C A,Messadeg D,Djemili R,et al.Robust speech recognition using perceptual wavelet denoising and mel-frequency product spectrum cepstral coefficient features[J].Informatica(Ljubljana),,2008,32 (3):283-288.
[8]Dimitrios V,Constantine K.Emotional speech recognition:Resources,features and methods [J].Speech Communication,2006,48 (9):1162-1181.
[9]Moore E,Clements M A,Peifer J W,et al.Critical analysis of the impact of glottal features in the classification of clinical depression in speech[J].Biomedical Engineering,IEEE Transactions on,2008.55 (1):96-107.
[10]Iliev A I,Scordilis M S.Emotion recognition in speech using inter-sentence glottal statistics[C]//Proceedings of 15th International Conference on in Systems,Signals and Image Processing,2008:465-468.
[11]ZHANG Xueying.Digital speech signal processing and MATLAB simulation[M].Beijing:Publishing House of Electronics Industry,2011:10-22 (in Chinese). [張雪英.數(shù)字語(yǔ)音處理及MATLAB仿真 [M].北京:電子工業(yè)出版社,2011:10-22.]
[12]Drugman T,Bozkurt B,Dutoit T,Causal-anticausal decomposition of speech using complex cepstrum for glottal source estimation[C]//Speech Communication,2011:855-866.
[13]ZHAO Li.Speech signal processing[M].Beijing:China Machine Press,2009 (in Chinese).[趙力.語(yǔ)音信號(hào)處理 [M].北京:機(jī)械工業(yè)出版社,2009.]
[14]YUN S,Yoo Chang D.Loss-scaled large-margin gaussian mixture models for speech emotion classification[J].IEEE Transactions on Audio Speech and Language Processing,2012,20 (2):585-598.
[15]WU S,F(xiàn)alk T,CHAN W.Automatic speech emotion recognition using modulation spectral features[J].Speech Communication,2011,53 (5):768-785.