亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聲門特征參數(shù)的語(yǔ)音情感識(shí)別算法研究

        2013-09-08 10:18:34劉肖珩
        關(guān)鍵詞:基音聲道聲門

        何 凌,黃 華,劉肖珩

        (1.四川大學(xué) 電氣信息學(xué)院,四川 成都610065;2.四川大學(xué) 基礎(chǔ)醫(yī)學(xué)與法醫(yī)學(xué)院,四川 成都610041)

        0 引 言

        隨著人機(jī)交互技術(shù)的迅速發(fā)展,人們期盼實(shí)現(xiàn)更為自然的人機(jī)交流,使計(jì)算機(jī)不僅能實(shí)現(xiàn)更為準(zhǔn)確的言語(yǔ)交流,也能理解人們的情感信息。語(yǔ)音信號(hào)作為人們最常用最便捷的信息傳輸媒體,不僅包含了大量的言語(yǔ)信息,還包含著非言語(yǔ)信息,如說話人的情感狀態(tài)。語(yǔ)音情感識(shí)別技術(shù)就是通過提取代表情感信息的語(yǔ)音特征參數(shù),并進(jìn)行模式識(shí)別,以此判斷說話人的情感狀態(tài)。語(yǔ)音情感識(shí)別在計(jì)算機(jī)科學(xué)的基礎(chǔ)上,還涉及到心理學(xué)、生理學(xué)、語(yǔ)言學(xué)、信號(hào)處理、模式識(shí)別等多學(xué)科的知識(shí)。這項(xiàng)技術(shù)可應(yīng)用于刑偵、駕駛、教育、醫(yī)學(xué)、安檢、服務(wù)、娛樂等眾多方面,是當(dāng)今多媒體時(shí)代非常活躍的一個(gè)研究方向[1-4]。

        1990年,美國(guó)MIT多媒體實(shí)驗(yàn)室的 “情感編輯器”實(shí)現(xiàn)了對(duì)人類語(yǔ)音情感信號(hào)進(jìn)行采樣和識(shí)別的功能[5]。至此,語(yǔ)音情感識(shí)別技術(shù)作為一個(gè)新的研究領(lǐng)域迅速發(fā)展。隨著信息技術(shù)與數(shù)字語(yǔ)音技術(shù)的融合,涌現(xiàn)了多種語(yǔ)音情感特征參數(shù)算法[6-8]。大多數(shù)的特征參數(shù)采用基音頻率、共振峰參數(shù)、語(yǔ)速、Mel倒譜系數(shù)等參數(shù)。該類參數(shù)通過對(duì)語(yǔ)音信號(hào)的直接計(jì)算而得到。由人類的發(fā)音機(jī)理可知,由聲門產(chǎn)生的激勵(lì)信號(hào)通過聲道響應(yīng)及嘴唇輻射,得到語(yǔ)音信號(hào)。近年來(lái)研究表明,聲門信號(hào)作為語(yǔ)音激勵(lì)信號(hào),同樣包含了豐富的說話人情感信息。Moore等人[9]應(yīng)用聲門開閉時(shí)間及聲門閃動(dòng)信號(hào) (glottal timing and glottal shimmer),實(shí)現(xiàn)說話人情感狀態(tài)的識(shí)別。實(shí)驗(yàn)結(jié)果表明,采用聲門信號(hào)特征參數(shù),其判別結(jié)果優(yōu)于傳統(tǒng)的基音頻率及共振峰參數(shù)。Iliev等人[10]采用聲門特征參數(shù)對(duì)高興、生氣和悲傷三類情感進(jìn)行判別。對(duì)聲門信號(hào)情感特征的分析,更加完整了情感語(yǔ)音的研究。

        本文基于語(yǔ)音信號(hào)生成的激勵(lì)系統(tǒng)、聲道及嘴唇輻射模型,通過逆濾波器及線性預(yù)測(cè)分析,實(shí)現(xiàn)聲門信號(hào)估計(jì),并提出了一種基于聲門信號(hào)特征參數(shù)和高斯混合模型的語(yǔ)音情感識(shí)別算法。提出的算法與傳統(tǒng)的基音頻率及共振峰參數(shù)進(jìn)行比較。并討論了情感信息在聲門激勵(lì)處的產(chǎn)生。

        1 聲門信號(hào)特征參數(shù)計(jì)算

        1.1 聲門信號(hào)的計(jì)算

        人的發(fā)聲過程一般可分為,首先由肺部的收縮送出一段氣流,經(jīng)氣管到喉頭聲門處 (即聲帶開口處),對(duì)聲帶產(chǎn)生一個(gè)沖擊,使聲帶振動(dòng),然后通過聲道響應(yīng)及嘴唇輻射而形成語(yǔ)音[11]。由于發(fā)出不同聲音時(shí)聲道的形狀有所不同,所以產(chǎn)生不同的語(yǔ)音。根據(jù)語(yǔ)音產(chǎn)生機(jī)理,語(yǔ)音信號(hào)生成系統(tǒng)由3個(gè)部分組成:聲門激勵(lì)系統(tǒng)、聲道系統(tǒng)和嘴唇輻射系統(tǒng)。語(yǔ)音信號(hào)可以表述為聲門信號(hào) (glottal signal)通過聲道濾波器 (vocal tract filter)和嘴唇輻射濾波器 (lip radiation fitler)卷積得到,如圖1所示。

        圖1 語(yǔ)音信號(hào)生成系統(tǒng)

        其中g(shù)(t)為聲門信號(hào),s(t)為語(yǔ)音信號(hào)。通過Z變換,語(yǔ)音信號(hào)S(Z)可以表達(dá)為

        其中嘴唇輻射濾波器R(Z)可以數(shù)學(xué)建模為

        聲道濾波器V (Z)可以數(shù)學(xué)建模為全極點(diǎn)模型

        其中系數(shù)ci可由線性預(yù)測(cè)分析 (linear prediction analysis)得到[12]。

        1.2 聲門信號(hào)時(shí)域特征參數(shù)計(jì)算

        聲門信號(hào)是一段偽隨機(jī)信號(hào),其中一段周期信號(hào)可以分為兩個(gè)階段:聲門打開階段和聲門閉合階段,如圖2所示。其中to表示聲門打開的時(shí)刻,tc為聲門閉合的時(shí)刻。聲門打開階段 (open phase)持續(xù)時(shí)間為to至tc,聲門閉合階段 (closed phase)持續(xù)時(shí)間為tc至to。T為一段聲門信號(hào)的周期

        圖2 聲門信號(hào)

        當(dāng)人類處于不同情感狀態(tài)時(shí),其發(fā)聲過程也相應(yīng)發(fā)生變化,與安靜狀態(tài)下有所不同。圖3和圖4所示為元音/a/在 “自然” (圖3)和 “生氣” (圖4)狀態(tài)下的一段聲門信號(hào)。

        由圖3和圖4可以看出,當(dāng)說話人處于 “生氣”狀態(tài)時(shí),其語(yǔ)音的表達(dá)通常音量增加 (激勵(lì)幅度增大),同時(shí)音調(diào)升高 (聲門振動(dòng)頻率增加)且語(yǔ)速加快。由此可見,聲門激勵(lì)信號(hào)中包含著人類情感信息。通過對(duì)聲門信號(hào)某些特征參數(shù)的提取,結(jié)合模式識(shí)別分類器,能夠判別出不同的情感狀態(tài)。

        本文采用的聲門信號(hào)特征參數(shù)如下:

        (1)tmax:聲門信號(hào)幅值最大值時(shí)對(duì)應(yīng)的時(shí)刻。

        (2)tmin:聲門信號(hào)幅值最小值時(shí)對(duì)應(yīng)的時(shí)刻。

        (3)tc:聲門關(guān)閉時(shí)刻。

        (4)to:聲門打開時(shí)刻。

        (5)OQ:聲門打開時(shí)段與聲門信號(hào)偽周期的比率

        (6)CQ:聲門閉合時(shí)段與聲門信號(hào)偽周期的比率

        2 基音周期與共振峰參數(shù)的計(jì)算

        2.1 基音周期的計(jì)算

        聲帶的開啟和閉合形成振動(dòng),聲帶的開啟和閉合活動(dòng)循環(huán)往復(fù)的進(jìn)行,就形成了一串周期性脈沖并將其氣流送入聲道。聲帶每開啟閉合一次的時(shí)間稱為基音周期T。本文采用自相關(guān)函數(shù)法求取語(yǔ)音的基音周期[13]。

        由于語(yǔ)音信號(hào)為非平穩(wěn)隨機(jī)信號(hào),但在一定時(shí)間內(nèi)(1532毫秒)可以看做短時(shí)平穩(wěn)信號(hào),因此,對(duì)輸入的數(shù)字語(yǔ)音信號(hào)s[n]進(jìn)行分幀處理,得到分幀信號(hào)xm[n],每幀信號(hào)長(zhǎng)度為N,1秒內(nèi)幀個(gè)數(shù)為m。語(yǔ)音信號(hào)的自相關(guān)函數(shù)的定義為

        短時(shí)自相關(guān)函數(shù)具有以下性質(zhì),當(dāng)時(shí)域信號(hào)為周期信號(hào)時(shí),自相關(guān)函數(shù)也是周期性函數(shù),兩者具有同樣的周期。濁音是一個(gè)準(zhǔn)周期信號(hào),在一幀語(yǔ)音內(nèi)基音周期近似恒定,因此,短時(shí)平均幅度差函數(shù)在濁音語(yǔ)音的基音周期上出現(xiàn)極小值。根據(jù)式 (7),計(jì)算自相關(guān)函數(shù)的周期,即可以得到語(yǔ)音信號(hào)的基音周期。尋找Rm(k)峰值Rm_peak,兩個(gè)峰值Rm_peak之間的距離即為基音頻率。

        2.2 共振峰的計(jì)算

        當(dāng)聲門激勵(lì)通過聲道時(shí),和聲道發(fā)生諧振和反諧振,從而使激勵(lì)的某一些頻譜的能量獲得增強(qiáng),而另一些被減弱,從而得到新的語(yǔ)音包絡(luò),這個(gè)包絡(luò)的的能量集中的峰處為共振峰。

        本文采用LPC線性預(yù)測(cè)法計(jì)算共振峰參數(shù)[13]。LPC分析是用全極點(diǎn)濾波器模擬聲道傳輸函數(shù),通過求解一組線性預(yù)測(cè)系數(shù),獲得這個(gè)全極點(diǎn)濾波器模型。而這個(gè)模型的共軛極點(diǎn)對(duì)就對(duì)應(yīng)相應(yīng)的共振峰,利用極點(diǎn),可以得到共振峰頻率,共振峰帶寬,及共振峰幅度。

        聲道傳輸函數(shù)的全極點(diǎn)模型表達(dá)式為

        式中:階的線性預(yù)測(cè)器,ai——預(yù)測(cè)器系數(shù),G——線性系統(tǒng)增益。

        對(duì)式 (8)求解極點(diǎn),每一個(gè)極點(diǎn)對(duì)應(yīng)一個(gè)共振峰,極點(diǎn)和共振峰之間的關(guān)系有

        式中:θ——極點(diǎn)相位角,r——極點(diǎn)半徑,T——采樣周期。

        通過式 (9)和式 (10)可以求解出相應(yīng)共振峰頻率F及帶寬B。

        3 高斯混合模型

        實(shí)驗(yàn)采用高斯混合模型作為判別器[14],對(duì)七種不同類型的情感進(jìn)行識(shí)別。

        混合高斯模型的概率密度函數(shù)由M個(gè)高斯概率密度函數(shù)加權(quán)求和得到

        其中x為一D維隨機(jī)向量,pii=1,2…M為混合加權(quán),bii=1,2…M為子分布密度。

        實(shí)驗(yàn)給定GMM模型一組訓(xùn)練數(shù)據(jù),根據(jù)最大似然估計(jì) (maximum likelihood,ML)法確定模型參數(shù),建立模型。

        4 情感語(yǔ)料庫(kù)

        實(shí)驗(yàn)采用公開的 BES (berlin emotion speech database)情感語(yǔ)料庫(kù)[15]。該情感語(yǔ)料庫(kù)由 Technical University Berlin大學(xué)錄制而成,語(yǔ)言為德語(yǔ),說話人包括5名男性和5名女性。受試者在自然狀態(tài)下模擬7種不同情感的表達(dá):自然、生氣、無(wú)聊、厭惡、害怕、高興和悲傷。語(yǔ)料庫(kù)共包括了535句語(yǔ)音信號(hào)。其語(yǔ)音庫(kù)的結(jié)構(gòu)見表1。

        表1 BES情感數(shù)據(jù)庫(kù)結(jié)構(gòu)

        5 實(shí)驗(yàn)結(jié)果及分析

        情感語(yǔ)音識(shí)別系統(tǒng)分為兩個(gè)部分:特征參數(shù)提取模塊和模式識(shí)別模塊。其中模式識(shí)別模塊包含了兩個(gè)部分:首先是應(yīng)用訓(xùn)練語(yǔ)音信號(hào)實(shí)現(xiàn)模型的建立,然后采用測(cè)試語(yǔ)音信號(hào)實(shí)現(xiàn)對(duì)情感類別的判別。

        實(shí)驗(yàn)從情感語(yǔ)料庫(kù)中隨機(jī)選取80%語(yǔ)音信號(hào)作為訓(xùn)練數(shù)據(jù),對(duì)輸入的語(yǔ)音信號(hào)提取特征參數(shù) (基音頻率、共振峰參數(shù)、聲門信號(hào)時(shí)域特征參數(shù)),將提取后的特征參數(shù)組作為識(shí)別器的輸入信號(hào),實(shí)現(xiàn)對(duì)高斯混合模型的參數(shù)估計(jì)。將剩下的20%語(yǔ)音信號(hào)作為測(cè)試數(shù)據(jù),提取相同的特征參數(shù)作為識(shí)別器的輸入,最后通過識(shí)別器得到判別結(jié)果。實(shí)驗(yàn)流程如圖5所示。該實(shí)驗(yàn)流程重復(fù)10次后,得到平均識(shí)別率為實(shí)驗(yàn)結(jié)果。

        圖5 語(yǔ)音情感識(shí)別系統(tǒng)流程

        實(shí)驗(yàn)首先對(duì)語(yǔ)音信號(hào)進(jìn)行去噪預(yù)處理,預(yù)處理后的語(yǔ)音信號(hào)進(jìn)行分幀處理,幀長(zhǎng)為32ms,對(duì)每幀信號(hào)計(jì)算其基音周期和共振峰參數(shù)。其流程如圖6所示。

        圖6 基音頻率及共振峰參數(shù)計(jì)算

        表2所示為應(yīng)用基音頻率及共振峰參數(shù)所得7種不同情感的識(shí)別正確率。

        表2 情感識(shí)別正確率 (基頻和共振峰參數(shù))

        圖7所示為提出的聲門信號(hào)時(shí)域特征參數(shù)的計(jì)算流程圖。實(shí)驗(yàn)首先對(duì)語(yǔ)音信號(hào)進(jìn)行去噪預(yù)處理,去噪后的語(yǔ)音信號(hào)應(yīng)用逆濾波器和LP分析估計(jì)其聲門信號(hào)。對(duì)聲門信號(hào)進(jìn)行分幀處理,幀長(zhǎng)為32ms,對(duì)每幀信號(hào)計(jì)算其時(shí)域特征參數(shù)組。

        圖7 聲門參數(shù)計(jì)算

        表3所示為應(yīng)用聲門信號(hào)時(shí)域特征參數(shù)所得7種不同情感的識(shí)別正確率。

        表3 情感識(shí)別正確率 (聲門信號(hào)特征參數(shù))

        由表2和表3可以看出,基于提出的特征提取算法的自動(dòng)情感識(shí)別率高于傳統(tǒng)的基音頻率和共振峰特征參數(shù)。

        表4所示為應(yīng)用聲門信號(hào)時(shí)域特征參數(shù)組得到的對(duì)BES語(yǔ)料庫(kù)中七種不同情感類別的正確識(shí)別率。

        表4 7種情感的正確識(shí)別率 (%)

        由表4可以看出,自動(dòng)識(shí)別系統(tǒng)對(duì)于情感類別 “生氣”的識(shí)別正確率最高,這是因?yàn)槿祟愒诒磉_(dá)這類情感時(shí),其情感因素表達(dá)強(qiáng)度最為強(qiáng)烈,其特征參數(shù)的表征度較大。同時(shí)可以看出,系統(tǒng)對(duì)于 “厭惡”這類情感的識(shí)別率較低,這是因?yàn)樵擃惽楦械谋磉_(dá)較其他情感較弱,其特征參數(shù)的表征不明顯。系統(tǒng)對(duì)于情感 “高興”易判別為類別 “生氣”,這是因?yàn)榍楦蓄悇e “高興”與 “生氣”相比,其人類的表達(dá)有一定的相似度,如音量變大,語(yǔ)速變快等,使得其特征參數(shù)的表征相似度較大。

        6 結(jié)束語(yǔ)

        實(shí)驗(yàn)結(jié)果表明,本文提出的基于聲門信號(hào)時(shí)域特征參數(shù)的情感語(yǔ)音識(shí)別系統(tǒng),對(duì)7種不同類型的情感識(shí)別率較高,其識(shí)別正確率到達(dá)了61.9%,優(yōu)于采用傳統(tǒng)的基音頻率及共振峰的特征提取算法 (其識(shí)別正確率分別為50.6%和54.4%)。

        同時(shí),實(shí)驗(yàn)結(jié)果表明,與語(yǔ)音信號(hào)相似,聲門信號(hào)作為語(yǔ)音的激勵(lì)信號(hào),同樣包含著豐富的人類情感特征。通過對(duì)聲門信號(hào)特征參數(shù)的分析,可以得到有效的語(yǔ)音情感識(shí)別系統(tǒng)。

        Technical University Berlin大學(xué)在對(duì)BES情感語(yǔ)料庫(kù)進(jìn)行錄制的同時(shí),組織了受試者對(duì)該語(yǔ)料庫(kù)的7種不同類型的情感進(jìn)行了人工判別,其人類判別的正確率為73.5%??梢?,基于提出的特征參數(shù)提取算法的自動(dòng)語(yǔ)音情感識(shí)別系統(tǒng)獲得了較高的情感類別識(shí)別率,其正確率接近于人類的識(shí)別正確率。

        [1]Becker Asano C,Kanda T,Ishi C.How about laughter perceived naturalness of two laughing humanoid robots [C]//ACII,Amsterdam,2009.

        [2]Truong K P,David A,F(xiàn)ranciska M G.Speech-based recognition of self-reported and observed emotion in a dimensional space[J].Speech Communication,2012,54 (9):1049-1063.

        [3]Susie M D,Marianne J U,Chris F,et al.Emotion recognition in huntingtons disease:A systematic review [J].Neuroscience&Biobehavioral Reviews,2012,36 (1):237-253.

        [4]Voran S.Listener detection of talker stress in low-rate coded speech[C]//Proceedings of International Conference on A-coustics,Speech,and Signal Processing,2008:4813-4816.

        [5]Picard R W.Affective computing [M].London,England:MIT Press,1997.

        [6]Ayadi M,Kamel M,Karray F.Survey on speech emotion recognition:Features,classification schemes and databases[J].Pattern Recognition,2011,44 (3):572-587.

        [7]Korba M C A,Messadeg D,Djemili R,et al.Robust speech recognition using perceptual wavelet denoising and mel-frequency product spectrum cepstral coefficient features[J].Informatica(Ljubljana),,2008,32 (3):283-288.

        [8]Dimitrios V,Constantine K.Emotional speech recognition:Resources,features and methods [J].Speech Communication,2006,48 (9):1162-1181.

        [9]Moore E,Clements M A,Peifer J W,et al.Critical analysis of the impact of glottal features in the classification of clinical depression in speech[J].Biomedical Engineering,IEEE Transactions on,2008.55 (1):96-107.

        [10]Iliev A I,Scordilis M S.Emotion recognition in speech using inter-sentence glottal statistics[C]//Proceedings of 15th International Conference on in Systems,Signals and Image Processing,2008:465-468.

        [11]ZHANG Xueying.Digital speech signal processing and MATLAB simulation[M].Beijing:Publishing House of Electronics Industry,2011:10-22 (in Chinese). [張雪英.數(shù)字語(yǔ)音處理及MATLAB仿真 [M].北京:電子工業(yè)出版社,2011:10-22.]

        [12]Drugman T,Bozkurt B,Dutoit T,Causal-anticausal decomposition of speech using complex cepstrum for glottal source estimation[C]//Speech Communication,2011:855-866.

        [13]ZHAO Li.Speech signal processing[M].Beijing:China Machine Press,2009 (in Chinese).[趙力.語(yǔ)音信號(hào)處理 [M].北京:機(jī)械工業(yè)出版社,2009.]

        [14]YUN S,Yoo Chang D.Loss-scaled large-margin gaussian mixture models for speech emotion classification[J].IEEE Transactions on Audio Speech and Language Processing,2012,20 (2):585-598.

        [15]WU S,F(xiàn)alk T,CHAN W.Automatic speech emotion recognition using modulation spectral features[J].Speech Communication,2011,53 (5):768-785.

        猜你喜歡
        基音聲道聲門
        9.7.8聲道、造價(jià)250余萬(wàn) James極品影院賞析
        為發(fā)燒需求打造的11聲道后級(jí) Orisun(傲力聲)OA-S11
        支撐喉鏡聲門區(qū)暴露困難影響因素的logistics分析
        基于基音跟蹤的語(yǔ)音增強(qiáng)研究
        尷尬的打嗝
        實(shí)現(xiàn)從7.2到11.2聲道的飛躍 Onkyo(安橋)TX-RZ830
        基于“聲門適度感”的聲樂演唱與教學(xué)研究
        樂理小知識(shí)
        小演奏家(2014年11期)2014-12-17 01:18:52
        考慮覆蓋率下時(shí)差式超聲流量計(jì)的平面聲道模型*
        一種改進(jìn)的基音周期提取算法
        麻豆久久久国内精品| 一本久到久久亚洲综合| 人妻无码AⅤ不卡中文字幕| 精品国品一二三产品区别在线观看| 国产99久久久国产精品免费| 国产精品乱码在线观看| 色欲av伊人久久大香线蕉影院 | 国产人与zoxxxx另类| 成人一区二区三区国产| 久久91精品国产91久| 亚洲精品无码专区在线| 四虎影在永久在线观看| 9l国产自产一区二区三区| 亚洲不卡电影| 国产精品免费观看久久| 99久久精品人妻一区| vr成人片在线播放网站| 亚洲综合网站久久久| 五月激情四射开心久久久| 亚洲啪啪AⅤ一区二区三区| 色狠狠一区二区三区香蕉| 337p日本欧洲亚洲大胆| 中文字幕一区二区三区四区| 亚洲中文字幕黄色小视频| 免费无码肉片在线观看| 亚洲人成网站色www| 国产精品女主播福利在线| 手机免费在线观看日韩av| 最近免费中文字幕| 无码人妻丰满熟妇啪啪网站| 国产成人高清在线观看视频| 2017天天爽夜夜爽精品视频| 亚洲精品中文字幕无码蜜桃| 亚洲av不卡一区男人天堂 | 亚洲色欲色欲综合网站| 麻豆国产精品va在线观看不卡| 国产激情一区二区三区不卡av| 极品美女销魂一区二区三| 真人直播 免费视频| 久久99国产精品久久99果冻传媒| 五月婷婷六月丁香久久综合|