亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于HMM和ANN混合模型的語音情感識別研究

        2018-10-15 06:03:36林巧民齊柱柱
        關(guān)鍵詞:信號情感模型

        林巧民,齊柱柱

        (1.南京郵電大學(xué) 計算機(jī)學(xué)院,江蘇 南京 210023;2.南京郵電大學(xué) 教育科學(xué)與技術(shù)學(xué)院,江蘇 南京 210003)

        0 引 言

        語音是人類溝通方式中最快和最自然的方法。研究人員認(rèn)為語音是一種快速和有效的人機(jī)交互方法。然而,這要求機(jī)器應(yīng)具有足夠的智能來識別人類聲音。自五十年代以來,已經(jīng)對語音識別進(jìn)行了大量研究,其中涉及了將人類語音轉(zhuǎn)換為詞序列的過程。盡管在語音識別方面的研究已經(jīng)取得了重大進(jìn)步,但仍然遠(yuǎn)遠(yuǎn)沒有實現(xiàn)人與機(jī)器之間的自然交互,這是因為機(jī)器不能理解說話者的情感狀態(tài)。因此引入了語音情感識別[1]這一相對較新的領(lǐng)域,即定義為從他或她的語音中提取說話者的情感狀態(tài)。語音情感識別可以從語音中提取有用的語義,并改進(jìn)語音識別系統(tǒng)的性能[2]。

        目前,大多數(shù)研究者都同意“調(diào)色板理論”[3],其中指出任何情感都可以分解成主要情感和次要情感。在此將情感分為5種:高興、驚奇、憤怒、悲傷和中性,并對其進(jìn)行語音情感識別。在語音情感識別中,算法的優(yōu)劣決定著識別率的高低。盡管目前研究者已取得大量成果,比如文獻(xiàn)[4]僅使用隱馬爾可夫模型對語音進(jìn)行情感識別,文獻(xiàn)[5]對傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)方法進(jìn)行了分析,文獻(xiàn)[6]使用深度神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫模型相混合的模型,相比單獨使用統(tǒng)計模型得到了不錯的識別率。因此單一使用某算法進(jìn)行語音情感識別的效果并不理想。依據(jù)HMM對動態(tài)時間序列具有的極強(qiáng)的建模能力和較弱的分類決策能力,以及ANN具有的較強(qiáng)的并行處理能力和分類決策能力及不能處理語音動態(tài)變化的特征序列等特點,將HMM和ANN兩種算法相結(jié)合,取長補(bǔ)短,以提高語音情感識別率。

        1 情感特征參數(shù)提取

        在對語音信號進(jìn)行特征參數(shù)提取之前,首先要對語音信號進(jìn)行預(yù)處理[7],以去除語音信號中摻雜的背景噪音的影響,并且獲得計算機(jī)能夠識別的、較為理想的語音樣本數(shù)據(jù)。語音信號預(yù)處理包括反混疊濾波、預(yù)加重、分幀加窗和端點檢測等操作。

        原始語音信號包含各種各樣的信息,如語調(diào)、文字、情感、韻律等,那么可提取的情感特征參數(shù)也是多種多樣的。首先要解決的一個關(guān)鍵問題是如何從這些情感特征參數(shù)中建立能反映個人情感特征的矢量[8]。因此要取得較好的語音情感識別效果,必須準(zhǔn)確選取語音情感特征參數(shù)。一個重要的選擇策略是:盡可能提取更易于提高語音情感識別率的情感特征參數(shù),并減少語音信號中那些無用的冗余信息[9]。

        1.1 基音頻率

        基因頻率是人說話發(fā)濁音時聲帶振動的基本頻率,簡稱基頻,通常用F0表示?;l的變化模式稱為聲調(diào),包含了大量有用的語音情感激活度的信息。在國內(nèi)外許多有關(guān)語音情感識別的研究中,基因頻率是重要的參數(shù)之一,有助于研究語音情感的變化。

        1.2 短時能量

        短時能量即音量高低,它是一幀采樣點值的加權(quán)平方和。短時能量直接反映聲音的音量大小,其中清音的能量較小,濁音的能量較高。一個人的情感不同時,其說話的音量也不同。例如在生氣或者驚訝時,說話的音量就較大,其短時能量也就越高。

        1.3 振 幅

        語音信號的振幅特征也是語音情感特征參數(shù)的一種,憤怒或驚奇時人們音量變大,語音信號振幅較大,然而當(dāng)悲傷或者平靜時,語音信號具有較小振幅,因此振幅也常被用作語音情感識別中的特征參數(shù)。選取發(fā)音起始點間的平均振幅的最大值作為最大振幅,同時提取平均振幅和最大振幅做參數(shù)。

        1.4 LPCC系數(shù)

        在語音情感識別中,線性預(yù)測倒譜系數(shù)(LPCC)常被用作情感特征參數(shù),由線性預(yù)測系數(shù)(LPC)推導(dǎo)出。LPCC系數(shù)的最大優(yōu)點就是能較徹底地消除語音產(chǎn)生過程中的激勵信息,并且能較好地反映聲道響應(yīng)。LPCC系數(shù)能很好地模擬人的聲道模型,十幾個LPCC系數(shù)就能良好地描述語音信號的共振峰特性,同時求取LPCC系數(shù)時計算量小,易于實現(xiàn),因此在語音情感識別中能獲得良好的識別效果[10]。文中選取10階LPCC系數(shù)作為情感特征參數(shù),表示為Ci1,Ci2,…,Ci12,其中i表示幀數(shù),k=1,2,…,12。

        2 語音情感識別模型

        HMM模型[10]的最大優(yōu)勢是有極強(qiáng)的建模能力,尤其對動態(tài)時間序列,在語音情感識別中已經(jīng)取得了相當(dāng)不錯的效果,并大大提高了語音情感識別性能。然而,HMM模型的分類能力弱、模式識別性能差,存在先驗假設(shè)問題,需要先驗統(tǒng)計知識等,先驗假設(shè)也就是假設(shè)語音信號當(dāng)前的狀態(tài)只與前一個狀態(tài)有關(guān)[11]。

        HMM模型中常用的Baum-Welch訓(xùn)練算法是基于最大似然準(zhǔn)則,其分類決策能力較弱,而且僅根據(jù)累積概率最大值判斷,忽略了其他狀態(tài)的累積概率和每個模型之間的相似特征,降低了HMM情感識別能力。

        ANN模型[12]正好相反,具有極強(qiáng)的分類決策能力,良好的自適應(yīng)和自學(xué)習(xí)能力,較強(qiáng)的魯棒性和容錯性,不需要預(yù)先假設(shè),廣泛應(yīng)用于語音情感識別。但ANN模型動態(tài)特性描述能力較弱,只能解決不涉及時間序列處理的靜態(tài)模式分類問題。ANN模型是可以訓(xùn)練的,可不斷積累學(xué)習(xí)經(jīng)驗以便提高性能,同時又因具有高度的并發(fā)性而能進(jìn)行快速分類判別。

        因此,將有較強(qiáng)動態(tài)時序建模能力的HMM和有較強(qiáng)分類決策能力的ANN兩種方法進(jìn)行有機(jī)結(jié)合[13],充分發(fā)揮兩者各自的優(yōu)勢,進(jìn)一步提高語音情感識別的準(zhǔn)確率。該方法識別流程如圖1所示。

        圖1 語音識別系統(tǒng)流程

        2.1 混合模型原理

        針對HMM和ANN各自的優(yōu)缺點,將HMM模型的較強(qiáng)動態(tài)時序建模能力和ANN模型的較強(qiáng)分類決策能力相混合形成新的模型,HMM模型的輸出作為ANN模型的輸入,對語音信號進(jìn)行識別和分類,完成語音情感識別。

        將HMM模型與ANN模型融合在一起,這里選擇的ANN模型是徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBF),可以充分利用全部情感狀態(tài)的累積概率,并對信號細(xì)節(jié)分量加以提取。RBF神經(jīng)網(wǎng)絡(luò)是由輸入層、輸出層和隱含層組成的網(wǎng)絡(luò)結(jié)構(gòu),其中輸入層節(jié)點是線性神經(jīng)元,輸出層節(jié)點是線性求和單元,隱含層節(jié)點常采用高斯核函數(shù),可以對輸入產(chǎn)生局部響應(yīng),將輸入空間劃分為若干小的局部區(qū)間,以達(dá)到分類和函數(shù)逼近的目的。RBF網(wǎng)絡(luò)結(jié)構(gòu)簡單,參數(shù)訓(xùn)練易于實現(xiàn),且不易陷入局部極小的麻煩。

        綜合兩類方法各自的優(yōu)點,研究HMM和RBF相結(jié)合的問題。

        2.2 訓(xùn)練和識別

        RBF模型的訓(xùn)練采用BP算法。經(jīng)過HMM模型的Viterbi算法解碼輸出全部情感狀態(tài)的累積概率,然后利用RBF模型進(jìn)行非線性映射。HMM/RBF混合模型的訓(xùn)練算法如下:

        (1)用Baum-Welch算法訓(xùn)練HMM模型,為每個情感狀態(tài)分別建立一個HMM模型,獲得訓(xùn)練好的HMM參數(shù)庫。

        (2)輸入待識別語音樣本xi(1≤i≤M),i是語音在語音庫中的序號,M為其容量。用HMM模型對語音信號數(shù)據(jù)進(jìn)行時間序列處理,采用Viterbi算法解碼得到相應(yīng)HMM參數(shù)輸出的狀態(tài)累積概率V=[βT(1),…,βT(j),…,βT(N)](1≤j≤N),這表示狀態(tài)sj的累積概率。

        (4)RBF采用BP學(xué)習(xí)算法對RBF進(jìn)行訓(xùn)練,直到滿足網(wǎng)絡(luò)的收斂精度要求為止。神經(jīng)網(wǎng)路訓(xùn)練算法使用BP學(xué)習(xí)算法,并且代價函數(shù)為修正的互熵函數(shù)。假設(shè)輸出層有N個節(jié)點,每個節(jié)點的輸出為Yn,對應(yīng)的期望輸出為Tn,修正的互熵函數(shù)可以表達(dá)為:

        (1)

        當(dāng)期望輸出為1時,互熵函數(shù)中的第二項為0,可以加快網(wǎng)絡(luò)的訓(xùn)練速度。

        如圖2所示,系統(tǒng)識別過程為:首先待識別樣本經(jīng)過預(yù)處理和特征提取操作后,經(jīng)過HMM模型的Viterbi算法[15]解碼產(chǎn)生全部狀態(tài)的累積概率保存在矢量V中,且不用HMM模型識別;然后對所得矢量進(jìn)行時間規(guī)整,可使用空間正交基函數(shù)展開的方法[16],最終生成等維的特征矢量,將其作為RBF模型的輸入進(jìn)行非線性映射,獲取識別結(jié)果。

        2.3 Viterbi算法

        Viterbi算法用于生成最佳狀態(tài)序列,評估給定觀察字符號序列與給定HMM模型之間的最佳匹配的可能性,然后實現(xiàn)最優(yōu)狀態(tài)序列。指P(S,O/λ)最大時確定的狀態(tài)序列,即HMM輸出一個觀察值序列O=o1,o2,…,oT時,使輸出概率最大的狀態(tài)序列S=s1s2…sT就是最佳。算法描述如下:

        在使用Viterbi算法求取最佳狀態(tài)序列時,由于使用遞歸計算的方法,概率值的連續(xù)乘法運算很容易導(dǎo)致下溢現(xiàn)象。為了解決該問題,通常使用兩種方法:第一種是增加比例因子,用于求和運算;第二種是對概率值取對數(shù)后再進(jìn)行計算,用于乘積運算。

        2.4 狀態(tài)歸一化

        (2)

        矩陣C中每一列可看作為m次多項式系數(shù),公式如下:

        (3)

        該多項式在0到1空間用正交基函數(shù)展開:

        (4)

        其中,Pn(x)為勒讓德多項式;Cn為展開系數(shù)。

        為了簡化計算,僅選擇6個勒讓德多項式作為正交基。盡管m是變量,但是每個m階多項式可被擴(kuò)展為6個系數(shù)。因此對于狀態(tài)i而言,L列的向量通過勒讓德多項式展開的系數(shù)共有6L個,L是常量。

        3 實驗結(jié)果

        系統(tǒng)中采用的語音樣本來自CASIA漢語情感語料庫[17],由四個專業(yè)發(fā)音人對相同的文本賦予不同的情感來閱讀。挑選出憤怒(angry)、高興(happy)、中性(neutral)、悲傷(sad)、驚奇(surprise)五種情感共300句語音狀態(tài)作為實驗對象。采用多次十折交叉驗證的方法,將語音樣本分為十份,輪流將其中9份做訓(xùn)練1份做測試,10次結(jié)果的均值作為對算法精度的估計。實驗中語音信號的采樣頻率為16 kHz,量化精度為16 bit,信噪比約為35 dB,幀移為5 ms,幀長為16 ms。

        表1和表2分別顯示了單獨使用HMM模型以及HMM/RBF混合模型在5類不同情感狀態(tài)下的情感識別率。從表1看出,悲傷的識別率最高為82.2%,其平均識別率達(dá)到77.86%,由此可知,采用單獨HMM模型的識別效果一般。從表2看出,高興和憤怒的識別率有明顯提高,其平均識別率達(dá)到了89.5%。

        表1 基于HMM的語音情感識別結(jié)果

        表2 基于HMM和ANN混合模型的語音情感識別結(jié)果

        由圖3可明顯看出,混合模型在憤怒、高興、悲傷、驚奇和中性5種不同情感識別效果上較單獨的HMM模型有較為明顯的提高。

        圖3 單獨的HMM以及HMM/ANN混合模型的語音情感識別模型比較

        4 結(jié)束語

        目前,多種網(wǎng)絡(luò)模型相結(jié)合是解決語音識別中的問題的有效途徑和思路,因此提出了基于HMM/RBF的語音情感識別模型,并介紹了該模型在語音情感識別中的使用方法。實驗結(jié)果表明,該模型比單一的模式識別在語音情感識別中有更好的識別效果。同時也有許多可以改進(jìn)的地方,如在特征參數(shù)選擇提取上,HMM模型訓(xùn)練算法等方面,有待進(jìn)一步的深入研究。

        猜你喜歡
        信號情感模型
        一半模型
        信號
        鴨綠江(2021年35期)2021-04-19 12:24:18
        如何在情感中自我成長,保持獨立
        重要模型『一線三等角』
        完形填空二則
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        如何在情感中自我成長,保持獨立
        基于FPGA的多功能信號發(fā)生器的設(shè)計
        電子制作(2018年11期)2018-08-04 03:25:42
        久久亚洲成a人片| 消息称老熟妇乱视频一区二区| 99久久国产福利自产拍| 欧美色色视频| 国产亚洲精品高清视频| 激情五月婷婷一区二区| 亚洲av无码专区在线播放中文| 在线欧美不卡| 精品国产乱来一区二区三区| 亚洲一区二区三区精品| 在线成人爽a毛片免费软件 | 热久久久久久久| 亚洲av一二三又爽又爽又色| 一区二区三区中文字幕脱狱者| 巨茎中出肉欲人妻在线视频| 欧美另类视频在线| 蜜臀av人妻一区二区三区| 91精品国产乱码久久中文| 国产精品99久久久久久猫咪| 中文字幕日韩高清| 国产在线精彩自拍视频| 日韩精品熟妇一区二区三区| 夜夜躁狠狠躁2021| 揄拍成人国产精品视频肥熟女| 日韩在线视频专区九区| 欧美最猛黑人xxxx| 白嫩少妇激情无码| 女同性恋亚洲一区二区| 国产色视频一区二区三区不卡| 爆爽久久久一区二区又大又黄又嫩| 国产精品一区二区久久乐下载| 中文字幕日韩一区二区不卡| 丝袜人妻一区二区三区| 国产超碰人人模人人爽人人喊| 国产一区二区三区免费在线视频 | 永久免费观看国产裸体美女| 无码一区二区三区在线在看| 青青草免费在线视频久草| 久久久久久九九99精品| 欧美一级色图| 女女同性av一区二区三区|