亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于聲門特征參數(shù)的語(yǔ)音情感識(shí)別算法研究

2013-09-08 10:18:34劉肖珩

計(jì)算機(jī)工程與設(shè)計(jì) 2013年6期

何凌，黃華，劉肖珩

（1.四川大學(xué) 電氣信息學(xué)院，四川成都610065；2.四川大學(xué) 基礎(chǔ)醫(yī)學(xué)與法醫(yī)學(xué)院，四川成都610041）

0 引言

隨著人機(jī)交互技術(shù)的迅速發(fā)展，人們期盼實(shí)現(xiàn)更為自然的人機(jī)交流，使計(jì)算機(jī)不僅能實(shí)現(xiàn)更為準(zhǔn)確的言語(yǔ)交流，也能理解人們的情感信息。語(yǔ)音信號(hào)作為人們最常用最便捷的信息傳輸媒體，不僅包含了大量的言語(yǔ)信息，還包含著非言語(yǔ)信息，如說話人的情感狀態(tài)。語(yǔ)音情感識(shí)別技術(shù)就是通過提取代表情感信息的語(yǔ)音特征參數(shù)，并進(jìn)行模式識(shí)別，以此判斷說話人的情感狀態(tài)。語(yǔ)音情感識(shí)別在計(jì)算機(jī)科學(xué)的基礎(chǔ)上，還涉及到心理學(xué)、生理學(xué)、語(yǔ)言學(xué)、信號(hào)處理、模式識(shí)別等多學(xué)科的知識(shí)。這項(xiàng)技術(shù)可應(yīng)用于刑偵、駕駛、教育、醫(yī)學(xué)、安檢、服務(wù)、娛樂等眾多方面，是當(dāng)今多媒體時(shí)代非常活躍的一個(gè)研究方向［1－4］。

1990年，美國(guó)MIT多媒體實(shí)驗(yàn)室的 “情感編輯器”實(shí)現(xiàn)了對(duì)人類語(yǔ)音情感信號(hào)進(jìn)行采樣和識(shí)別的功能［5］。至此，語(yǔ)音情感識(shí)別技術(shù)作為一個(gè)新的研究領(lǐng)域迅速發(fā)展。隨著信息技術(shù)與數(shù)字語(yǔ)音技術(shù)的融合，涌現(xiàn)了多種語(yǔ)音情感特征參數(shù)算法［6－8］。大多數(shù)的特征參數(shù)采用基音頻率、共振峰參數(shù)、語(yǔ)速、Mel倒譜系數(shù)等參數(shù)。該類參數(shù)通過對(duì)語(yǔ)音信號(hào)的直接計(jì)算而得到。由人類的發(fā)音機(jī)理可知，由聲門產(chǎn)生的激勵(lì)信號(hào)通過聲道響應(yīng)及嘴唇輻射，得到語(yǔ)音信號(hào)。近年來(lái)研究表明，聲門信號(hào)作為語(yǔ)音激勵(lì)信號(hào)，同樣包含了豐富的說話人情感信息。Moore等人［9］應(yīng)用聲門開閉時(shí)間及聲門閃動(dòng)信號(hào) （glottal timing and glottal shimmer），實(shí)現(xiàn)說話人情感狀態(tài)的識(shí)別。實(shí)驗(yàn)結(jié)果表明，采用聲門信號(hào)特征參數(shù)，其判別結(jié)果優(yōu)于傳統(tǒng)的基音頻率及共振峰參數(shù)。Iliev等人［10］采用聲門特征參數(shù)對(duì)高興、生氣和悲傷三類情感進(jìn)行判別。對(duì)聲門信號(hào)情感特征的分析，更加完整了情感語(yǔ)音的研究。

本文基于語(yǔ)音信號(hào)生成的激勵(lì)系統(tǒng)、聲道及嘴唇輻射模型，通過逆濾波器及線性預(yù)測(cè)分析，實(shí)現(xiàn)聲門信號(hào)估計(jì)，并提出了一種基于聲門信號(hào)特征參數(shù)和高斯混合模型的語(yǔ)音情感識(shí)別算法。提出的算法與傳統(tǒng)的基音頻率及共振峰參數(shù)進(jìn)行比較。并討論了情感信息在聲門激勵(lì)處的產(chǎn)生。

1 聲門信號(hào)特征參數(shù)計(jì)算

1.1 聲門信號(hào)的計(jì)算

人的發(fā)聲過程一般可分為，首先由肺部的收縮送出一段氣流，經(jīng)氣管到喉頭聲門處（即聲帶開口處），對(duì)聲帶產(chǎn)生一個(gè)沖擊，使聲帶振動(dòng)，然后通過聲道響應(yīng)及嘴唇輻射而形成語(yǔ)音［11］。由于發(fā)出不同聲音時(shí)聲道的形狀有所不同，所以產(chǎn)生不同的語(yǔ)音。根據(jù)語(yǔ)音產(chǎn)生機(jī)理，語(yǔ)音信號(hào)生成系統(tǒng)由3個(gè)部分組成：聲門激勵(lì)系統(tǒng)、聲道系統(tǒng)和嘴唇輻射系統(tǒng)。語(yǔ)音信號(hào)可以表述為聲門信號(hào) （glottal signal）通過聲道濾波器（vocal tract filter）和嘴唇輻射濾波器（lip radiation fitler）卷積得到，如圖1所示。

圖1 語(yǔ)音信號(hào)生成系統(tǒng)

其中g(shù)（t）為聲門信號(hào)，s（t）為語(yǔ)音信號(hào)。通過Z變換，語(yǔ)音信號(hào)S（Z）可以表達(dá)為

其中嘴唇輻射濾波器R（Z）可以數(shù)學(xué)建模為

聲道濾波器V （Z）可以數(shù)學(xué)建模為全極點(diǎn)模型

其中系數(shù)ci可由線性預(yù)測(cè)分析（linear prediction analysis）得到［12］。

1.2 聲門信號(hào)時(shí)域特征參數(shù)計(jì)算

聲門信號(hào)是一段偽隨機(jī)信號(hào)，其中一段周期信號(hào)可以分為兩個(gè)階段：聲門打開階段和聲門閉合階段，如圖2所示。其中to表示聲門打開的時(shí)刻，tc為聲門閉合的時(shí)刻。聲門打開階段（open phase）持續(xù)時(shí)間為to至tc，聲門閉合階段（closed phase）持續(xù)時(shí)間為tc至to。T為一段聲門信號(hào)的周期

圖2 聲門信號(hào)

當(dāng)人類處于不同情感狀態(tài)時(shí)，其發(fā)聲過程也相應(yīng)發(fā)生變化，與安靜狀態(tài)下有所不同。圖3和圖4所示為元音／a／在 “自然” （圖3）和 “生氣” （圖4）狀態(tài)下的一段聲門信號(hào)。

由圖3和圖4可以看出，當(dāng)說話人處于 “生氣”狀態(tài)時(shí)，其語(yǔ)音的表達(dá)通常音量增加（激勵(lì)幅度增大），同時(shí)音調(diào)升高（聲門振動(dòng)頻率增加）且語(yǔ)速加快。由此可見，聲門激勵(lì)信號(hào)中包含著人類情感信息。通過對(duì)聲門信號(hào)某些特征參數(shù)的提取，結(jié)合模式識(shí)別分類器，能夠判別出不同的情感狀態(tài)。

本文采用的聲門信號(hào)特征參數(shù)如下：

（1）tmax：聲門信號(hào)幅值最大值時(shí)對(duì)應(yīng)的時(shí)刻。

（2）tmin：聲門信號(hào)幅值最小值時(shí)對(duì)應(yīng)的時(shí)刻。

（3）tc：聲門關(guān)閉時(shí)刻。

（4）to：聲門打開時(shí)刻。

（5）OQ：聲門打開時(shí)段與聲門信號(hào)偽周期的比率

（6）CQ：聲門閉合時(shí)段與聲門信號(hào)偽周期的比率

2 基音周期與共振峰參數(shù)的計(jì)算

2.1 基音周期的計(jì)算

聲帶的開啟和閉合形成振動(dòng)，聲帶的開啟和閉合活動(dòng)循環(huán)往復(fù)的進(jìn)行，就形成了一串周期性脈沖并將其氣流送入聲道。聲帶每開啟閉合一次的時(shí)間稱為基音周期T。本文采用自相關(guān)函數(shù)法求取語(yǔ)音的基音周期［13］。

由于語(yǔ)音信號(hào)為非平穩(wěn)隨機(jī)信號(hào)，但在一定時(shí)間內(nèi)（1532毫秒）可以看做短時(shí)平穩(wěn)信號(hào)，因此，對(duì)輸入的數(shù)字語(yǔ)音信號(hào)s［n］進(jìn)行分幀處理，得到分幀信號(hào)xm［n］，每幀信號(hào)長(zhǎng)度為N，1秒內(nèi)幀個(gè)數(shù)為m。語(yǔ)音信號(hào)的自相關(guān)函數(shù)的定義為

短時(shí)自相關(guān)函數(shù)具有以下性質(zhì)，當(dāng)時(shí)域信號(hào)為周期信號(hào)時(shí)，自相關(guān)函數(shù)也是周期性函數(shù)，兩者具有同樣的周期。濁音是一個(gè)準(zhǔn)周期信號(hào)，在一幀語(yǔ)音內(nèi)基音周期近似恒定，因此，短時(shí)平均幅度差函數(shù)在濁音語(yǔ)音的基音周期上出現(xiàn)極小值。根據(jù)式（7），計(jì)算自相關(guān)函數(shù)的周期，即可以得到語(yǔ)音信號(hào)的基音周期。尋找Rm（k）峰值Rm＿peak，兩個(gè)峰值Rm＿peak之間的距離即為基音頻率。

2.2 共振峰的計(jì)算

當(dāng)聲門激勵(lì)通過聲道時(shí)，和聲道發(fā)生諧振和反諧振，從而使激勵(lì)的某一些頻譜的能量獲得增強(qiáng)，而另一些被減弱，從而得到新的語(yǔ)音包絡(luò)，這個(gè)包絡(luò)的的能量集中的峰處為共振峰。

本文采用LPC線性預(yù)測(cè)法計(jì)算共振峰參數(shù)［13］。LPC分析是用全極點(diǎn)濾波器模擬聲道傳輸函數(shù)，通過求解一組線性預(yù)測(cè)系數(shù)，獲得這個(gè)全極點(diǎn)濾波器模型。而這個(gè)模型的共軛極點(diǎn)對(duì)就對(duì)應(yīng)相應(yīng)的共振峰，利用極點(diǎn)，可以得到共振峰頻率，共振峰帶寬，及共振峰幅度。

聲道傳輸函數(shù)的全極點(diǎn)模型表達(dá)式為

式中：階的線性預(yù)測(cè)器，ai——預(yù)測(cè)器系數(shù)，G——線性系統(tǒng)增益。

對(duì)式（8）求解極點(diǎn)，每一個(gè)極點(diǎn)對(duì)應(yīng)一個(gè)共振峰，極點(diǎn)和共振峰之間的關(guān)系有

式中：θ——極點(diǎn)相位角，r——極點(diǎn)半徑，T——采樣周期。

通過式（9）和式（10）可以求解出相應(yīng)共振峰頻率F及帶寬B。

3 高斯混合模型

實(shí)驗(yàn)采用高斯混合模型作為判別器［14］，對(duì)七種不同類型的情感進(jìn)行識(shí)別。

混合高斯模型的概率密度函數(shù)由M個(gè)高斯概率密度函數(shù)加權(quán)求和得到

其中x為一D維隨機(jī)向量，pii＝1，2…M為混合加權(quán)，bii＝1，2…M為子分布密度。

實(shí)驗(yàn)給定GMM模型一組訓(xùn)練數(shù)據(jù)，根據(jù)最大似然估計(jì) （maximum likelihood，ML）法確定模型參數(shù)，建立模型。

4 情感語(yǔ)料庫(kù)

實(shí)驗(yàn)采用公開的 BES （berlin emotion speech database）情感語(yǔ)料庫(kù)［15］。該情感語(yǔ)料庫(kù)由 Technical University Berlin大學(xué)錄制而成，語(yǔ)言為德語(yǔ)，說話人包括5名男性和5名女性。受試者在自然狀態(tài)下模擬7種不同情感的表達(dá)：自然、生氣、無(wú)聊、厭惡、害怕、高興和悲傷。語(yǔ)料庫(kù)共包括了535句語(yǔ)音信號(hào)。其語(yǔ)音庫(kù)的結(jié)構(gòu)見表1。

表1 BES情感數(shù)據(jù)庫(kù)結(jié)構(gòu)

5 實(shí)驗(yàn)結(jié)果及分析

情感語(yǔ)音識(shí)別系統(tǒng)分為兩個(gè)部分：特征參數(shù)提取模塊和模式識(shí)別模塊。其中模式識(shí)別模塊包含了兩個(gè)部分：首先是應(yīng)用訓(xùn)練語(yǔ)音信號(hào)實(shí)現(xiàn)模型的建立，然后采用測(cè)試語(yǔ)音信號(hào)實(shí)現(xiàn)對(duì)情感類別的判別。

實(shí)驗(yàn)從情感語(yǔ)料庫(kù)中隨機(jī)選取80%語(yǔ)音信號(hào)作為訓(xùn)練數(shù)據(jù)，對(duì)輸入的語(yǔ)音信號(hào)提取特征參數(shù) （基音頻率、共振峰參數(shù)、聲門信號(hào)時(shí)域特征參數(shù)），將提取后的特征參數(shù)組作為識(shí)別器的輸入信號(hào)，實(shí)現(xiàn)對(duì)高斯混合模型的參數(shù)估計(jì)。將剩下的20%語(yǔ)音信號(hào)作為測(cè)試數(shù)據(jù)，提取相同的特征參數(shù)作為識(shí)別器的輸入，最后通過識(shí)別器得到判別結(jié)果。實(shí)驗(yàn)流程如圖5所示。該實(shí)驗(yàn)流程重復(fù)10次后，得到平均識(shí)別率為實(shí)驗(yàn)結(jié)果。

圖5 語(yǔ)音情感識(shí)別系統(tǒng)流程

實(shí)驗(yàn)首先對(duì)語(yǔ)音信號(hào)進(jìn)行去噪預(yù)處理，預(yù)處理后的語(yǔ)音信號(hào)進(jìn)行分幀處理，幀長(zhǎng)為32ms，對(duì)每幀信號(hào)計(jì)算其基音周期和共振峰參數(shù)。其流程如圖6所示。

圖6 基音頻率及共振峰參數(shù)計(jì)算

表2所示為應(yīng)用基音頻率及共振峰參數(shù)所得7種不同情感的識(shí)別正確率。

表2 情感識(shí)別正確率（基頻和共振峰參數(shù)）

圖7所示為提出的聲門信號(hào)時(shí)域特征參數(shù)的計(jì)算流程圖。實(shí)驗(yàn)首先對(duì)語(yǔ)音信號(hào)進(jìn)行去噪預(yù)處理，去噪后的語(yǔ)音信號(hào)應(yīng)用逆濾波器和LP分析估計(jì)其聲門信號(hào)。對(duì)聲門信號(hào)進(jìn)行分幀處理，幀長(zhǎng)為32ms，對(duì)每幀信號(hào)計(jì)算其時(shí)域特征參數(shù)組。

圖7 聲門參數(shù)計(jì)算

表3所示為應(yīng)用聲門信號(hào)時(shí)域特征參數(shù)所得7種不同情感的識(shí)別正確率。

表3 情感識(shí)別正確率（聲門信號(hào)特征參數(shù)）

由表2和表3可以看出，基于提出的特征提取算法的自動(dòng)情感識(shí)別率高于傳統(tǒng)的基音頻率和共振峰特征參數(shù)。

表4所示為應(yīng)用聲門信號(hào)時(shí)域特征參數(shù)組得到的對(duì)BES語(yǔ)料庫(kù)中七種不同情感類別的正確識(shí)別率。

表4 7種情感的正確識(shí)別率（%）

由表4可以看出，自動(dòng)識(shí)別系統(tǒng)對(duì)于情感類別 “生氣”的識(shí)別正確率最高，這是因?yàn)槿祟愒诒磉_(dá)這類情感時(shí)，其情感因素表達(dá)強(qiáng)度最為強(qiáng)烈，其特征參數(shù)的表征度較大。同時(shí)可以看出，系統(tǒng)對(duì)于 “厭惡”這類情感的識(shí)別率較低，這是因?yàn)樵擃惽楦械谋磉_(dá)較其他情感較弱，其特征參數(shù)的表征不明顯。系統(tǒng)對(duì)于情感 “高興”易判別為類別 “生氣”，這是因?yàn)榍楦蓄悇e “高興”與 “生氣”相比，其人類的表達(dá)有一定的相似度，如音量變大，語(yǔ)速變快等，使得其特征參數(shù)的表征相似度較大。

6 結(jié)束語(yǔ)

實(shí)驗(yàn)結(jié)果表明，本文提出的基于聲門信號(hào)時(shí)域特征參數(shù)的情感語(yǔ)音識(shí)別系統(tǒng)，對(duì)7種不同類型的情感識(shí)別率較高，其識(shí)別正確率到達(dá)了61.9%，優(yōu)于采用傳統(tǒng)的基音頻率及共振峰的特征提取算法（其識(shí)別正確率分別為50.6%和54.4%）。

同時(shí)，實(shí)驗(yàn)結(jié)果表明，與語(yǔ)音信號(hào)相似，聲門信號(hào)作為語(yǔ)音的激勵(lì)信號(hào)，同樣包含著豐富的人類情感特征。通過對(duì)聲門信號(hào)特征參數(shù)的分析，可以得到有效的語(yǔ)音情感識(shí)別系統(tǒng)。

Technical University Berlin大學(xué)在對(duì)BES情感語(yǔ)料庫(kù)進(jìn)行錄制的同時(shí)，組織了受試者對(duì)該語(yǔ)料庫(kù)的7種不同類型的情感進(jìn)行了人工判別，其人類判別的正確率為73.5%?？梢?，基于提出的特征參數(shù)提取算法的自動(dòng)語(yǔ)音情感識(shí)別系統(tǒng)獲得了較高的情感類別識(shí)別率，其正確率接近于人類的識(shí)別正確率。

：

［1］Becker Asano C，Kanda T，Ishi C.How about laughter perceived naturalness of two laughing humanoid robots ［C］／／ACII，Amsterdam，2009.

［2］Truong K P，David A，F(xiàn)ranciska M G.Speech－based recognition of self－reported and observed emotion in a dimensional space［J］.Speech Communication，2012，54 （9）：1049－1063.

［3］Susie M D，Marianne J U，Chris F，et al.Emotion recognition in huntingtons disease：A systematic review ［J］.Neuroscience＆Biobehavioral Reviews，2012，36 （1）：237－253.

［4］Voran S.Listener detection of talker stress in low－rate coded speech［C］／／Proceedings of International Conference on A－coustics，Speech，and Signal Processing，2008：4813－4816.

［5］Picard R W.Affective computing ［M］.London，England：MIT Press，1997.

［6］Ayadi M，Kamel M，Karray F.Survey on speech emotion recognition：Features，classification schemes and databases［J］.Pattern Recognition，2011，44 （3）：572－587.

［7］Korba M C A，Messadeg D，Djemili R，et al.Robust speech recognition using perceptual wavelet denoising and mel－frequency product spectrum cepstral coefficient features［J］.Informatica（Ljubljana），，2008，32 （3）：283－288.

［8］Dimitrios V，Constantine K.Emotional speech recognition：Resources，features and methods ［J］.Speech Communication，2006，48 （9）：1162－1181.

［9］Moore E，Clements M A，Peifer J W，et al.Critical analysis of the impact of glottal features in the classification of clinical depression in speech［J］.Biomedical Engineering，IEEE Transactions on，2008.55 （1）：96－107.

［10］Iliev A I，Scordilis M S.Emotion recognition in speech using inter－sentence glottal statistics［C］／／Proceedings of 15th International Conference on in Systems，Signals and Image Processing，2008：465－468.

［11］ZHANG Xueying.Digital speech signal processing and MATLAB simulation［M］.Beijing：Publishing House of Electronics Industry，2011：10－22 （in Chinese）. ［張雪英.數(shù)字語(yǔ)音處理及MATLAB仿真［M］.北京：電子工業(yè)出版社，2011：10－22.］

［12］Drugman T，Bozkurt B，Dutoit T，Causal－anticausal decomposition of speech using complex cepstrum for glottal source estimation［C］／／Speech Communication，2011：855－866.

［13］ZHAO Li.Speech signal processing［M］.Beijing：China Machine Press，2009 （in Chinese）.［趙力.語(yǔ)音信號(hào)處理［M］.北京：機(jī)械工業(yè)出版社，2009.］

［14］YUN S，Yoo Chang D.Loss－scaled large－margin gaussian mixture models for speech emotion classification［J］.IEEE Transactions on Audio Speech and Language Processing，2012，20 （2）：585－598.

［15］WU S，F(xiàn)alk T，CHAN W.Automatic speech emotion recognition using modulation spectral features［J］.Speech Communication，2011，53 （5）：768－785.