亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混沌特性的情感語音特征提取

        2015-06-05 15:30:51張雪英張奇萍
        關(guān)鍵詞:特征信號情感

        孫 穎,姚 慧,張雪英,張奇萍,

        (1. 太原理工大學(xué)信息工程學(xué)院,太原030024;2. 長島大學(xué)圖書館管理學(xué)院,紐約11548)

        基于混沌特性的情感語音特征提取

        孫 穎1,姚 慧1,張雪英1,張奇萍1,2

        (1. 太原理工大學(xué)信息工程學(xué)院,太原030024;2. 長島大學(xué)圖書館管理學(xué)院,紐約11548)

        根據(jù)語音發(fā)聲過程中的混沌特性,應(yīng)用非線性動(dòng)力學(xué)模型分析情感語音信號,提取了該模型下情感語音信號的非線性特征以及常用的聲學(xué)特征(韻律特征和MFCC).設(shè)計(jì)情感語音識別對比實(shí)驗(yàn),將非線性特征與不同聲學(xué)特征融合并驗(yàn)證了該組合下的情感識別性能,研究了語音信號混沌特性對情感語音識別性能的影響.實(shí)驗(yàn)選用德國柏林語音庫4種情感(高興、憤怒、悲傷和中性)作為語料來源,支持向量機(jī)網(wǎng)絡(luò)用于情感識別.結(jié)果表明,非線性特征有效表征了情感語音信號的混沌特性,與傳統(tǒng)聲學(xué)特征結(jié)合后,情感語音識別性能得到了顯著提高.

        情感語音識別;混沌特性;支持向量機(jī);非線性特征

        語言是人類進(jìn)行溝通最有效的工具.語言中不僅包含了文字信息,而且還包含了大量的反映說話人情感變化的副語言信息.情感語音識別是計(jì)算機(jī)自動(dòng)對個(gè)人講話時(shí)情感狀態(tài)進(jìn)行認(rèn)知理解并做出情感判斷,在客服服務(wù)、遠(yuǎn)程教育、情感障礙治療等方面都發(fā)揮了重要的作用.提取情感關(guān)聯(lián)的特征是情感語音識別的關(guān)鍵之一.常用于語音情感識別的特征大致分為韻律特征、基于譜的相關(guān)特征和音質(zhì)特征等聲學(xué)特征[1].目前大多數(shù)研究者的研究主要集中在尋找上述3類特征融合后的最優(yōu)特征子集[2-4],從而提高識別網(wǎng)絡(luò)性能.近些年,隨著語音非線性動(dòng)力學(xué)特性研究的深入以及非線性動(dòng)力學(xué)理論的進(jìn)一步發(fā)展,研究學(xué)者發(fā)現(xiàn)并驗(yàn)證了語音信號在產(chǎn)生和傳播過程中都是一個(gè)時(shí)變的非線性系統(tǒng),發(fā)聲過程中存在混沌特性[5].基于語音信號混沌特性的研究已經(jīng)取得一些進(jìn)展[6-9].閆潤強(qiáng)[5]對語音音素信號的分析驗(yàn)證了語音非線性特性,并對非平穩(wěn)語音信號的分析技術(shù)和特征參數(shù)的提取進(jìn)行初步的研究和闡述;李響等[8]利用語音混沌特性提取司機(jī)應(yīng)答語句中的非線性特征來檢測駕駛疲勞;Zbancioc[9]將Lyapunov指數(shù)應(yīng)用于MFCC、LPCC特征的頻譜系數(shù)提取過程中并獲得了75%,的識別率.雖然對基于語音信號混沌特性進(jìn)行了較多的研究,針對情感語音信號的研究還不多見.因此,筆者從語音混沌特性出發(fā),將混沌動(dòng)力學(xué)模型應(yīng)用于情感語音特征提取階段,提取基于情感語音信號混沌特性的非線性新特征,并與情感語音聲學(xué)特征相結(jié)合,驗(yàn)證非線性特征識別性能,以便提高情感識別準(zhǔn)確性.

        1 語音非線性特征提取

        非線性動(dòng)力學(xué)模型是研究語音信號混沌特性的一種有效分析方法.語音信號非線性特征是在該模型下將情感語音信號看作一維時(shí)間序列處理得到的.Taken’s嵌入定理指出:選取合適的最小延遲時(shí)間τ和嵌入維數(shù)m兩個(gè)參數(shù)就可以將一維情感語音信號映射到高維空間實(shí)現(xiàn)相空間重構(gòu),且重構(gòu)后高維空間與原始空間等價(jià)[10].重構(gòu)后的情感語音信號變?yōu)樵诟呔S空間里分析情感語音信號,進(jìn)一步提取情感語音動(dòng)力學(xué)模型下的非線性特征參數(shù),獲取代表情感差異度的有效非線性特征是本文的關(guān)鍵.本文采用的情感語音識別系統(tǒng)如圖1所示.

        圖1 情感語音識別系統(tǒng)Fig.1 System of emotional speech recognition

        1.1 最小延遲時(shí)間

        1.2 最大Lyapunov指數(shù)

        Lyapunov指數(shù)反映了相空間中相鄰軌道的局部收斂或發(fā)散的平均變化率.而最大Lyapunov 指數(shù)1λ表示軌道收斂或發(fā)散的快慢程度.當(dāng)10λ>時(shí),1λ值越大表示軌道發(fā)散的速率也越大且混沌程度也越大.本文采用小數(shù)據(jù)量方法[11]求得最大Lyapunov指數(shù).計(jì)算方法如下:

        (2)通過C-C法計(jì)算最小延遲時(shí)間τ和嵌入維數(shù)m;

        (3)對序列[x(1),x(2),…,x( N)]相空間重構(gòu)變?yōu)?/p>

        Xi=[x( i), x( i+1),…,x( i+(m-1)τ)],i=1,2,…,N -(m-1)τ.尋求相空間中每個(gè)點(diǎn)Xi的最近鄰點(diǎn)Xi'并限制短暫分離.定義di(0)為第i點(diǎn)到其鄰近軌道中最近點(diǎn)Xi'的距離

        (4)找相空間中每個(gè)點(diǎn)iX,計(jì)算該相鄰點(diǎn)對的n個(gè)單位時(shí)間后的距離

        (5)若鄰域最近點(diǎn)的軌道以1λ的指數(shù)速率發(fā)散,則有

        式中sT為采樣周期.等式兩邊取對數(shù),得

        對所有相鄰點(diǎn)點(diǎn)間距離的對數(shù)差取平均值,即

        其中q是非零dj( i)的數(shù)目.最小二乘法擬合得

        1.3 關(guān)聯(lián)維數(shù)和Kolmogorov熵

        關(guān)聯(lián)維數(shù)和Kolmogorov熵都是非線性動(dòng)力學(xué)模型下的非線性表征量.關(guān)聯(lián)維數(shù)描述了系統(tǒng)自相似結(jié)構(gòu).Kolmogorov熵精確化描述時(shí)間序列的分布概率的混亂程度.本文采用Grassberger和Procaccia提出的G-P算法[12]同時(shí)計(jì)算關(guān)聯(lián)維數(shù)和Kolmogorov熵.算法如下.

        (1)計(jì)算關(guān)聯(lián)積分C( r, m)獲取C( r, m)- r曲線.m維相空間重構(gòu)后,給定一個(gè)臨界距離r,查找相空間中任意(Xi,Xj)之間的距離小于r的相點(diǎn)對占所有相點(diǎn)對之比,得到關(guān)聯(lián)積分函數(shù)為式中:m為嵌入維數(shù);M為總相點(diǎn)數(shù),M=N-(m-1)τ;θ為Heaviside函數(shù),滿足

        (2)G-P算法推導(dǎo)出關(guān)聯(lián)維數(shù)D( m)計(jì)算式為

        做lnC( r, m)-lnr曲線圖,取近似直線部分的斜率就是關(guān)聯(lián)維數(shù)D.

        (3)G-P算法同時(shí)推導(dǎo)出Kolmogorov熵計(jì)算式為

        1.4 Hurst指數(shù)

        Hurst 指數(shù)(H)衡量了時(shí)間序列的長期記憶性.它量化了一個(gè)時(shí)間序列演化趨勢是否向一個(gè)方向聚集.H值的范圍為0~1.如果H>0.5表示時(shí)間序列具有長期自相關(guān)性,時(shí)間序列前后關(guān)聯(lián)性較大;H<0.5表示時(shí)間序列無自相關(guān)性.?dāng)?shù)字化的情感語音信號情感不同相應(yīng)的變化規(guī)律也不相同,比如憤怒情感的語句前后情感變化相較于其他情感的隨機(jī)性要高,而中性、高興類型的語音前后情感較穩(wěn)定,關(guān)聯(lián)性較高.提取情感語音的Hurst指數(shù)特征可以體現(xiàn)情感變化的前后關(guān)聯(lián)性高低,所以本文選取Hurst指數(shù)作為非線性特征之一.Hurst在提出該指數(shù)同時(shí)也引入重標(biāo)極差分析方法[13]計(jì)算H值.重標(biāo)極差法(the rescaled-range)分析是一種非參數(shù)統(tǒng)計(jì)方法,不受時(shí)間序列分布的影響.

        2 實(shí) 驗(yàn)

        2.1 數(shù)據(jù)庫

        情感語音識別的研究離不開高質(zhì)量的情感語音數(shù)據(jù)庫的支持.德國柏林情感語音庫在情感語音識別研究領(lǐng)域具有一定的代表性,因此,本文選用柏林語音庫.

        德國柏林語音庫[14]是由10位演員(5男5女)對7種情感(中性、生氣、害怕、高興、悲傷、厭惡、無聊)進(jìn)行模擬得到的,包含800句語料,采樣率為16,kHz.由于柏林語音庫中的錄制語句長短不同,為避免該因素的影響,本文選用語音長度近似相同的情感語句.經(jīng)過篩選得到中性(79)、憤怒(82)、高興(71)、悲傷(62)4種情感語句,共294句.

        2.2 預(yù)處理

        語音信號是一種非平穩(wěn)的時(shí)變信號.對語音信號進(jìn)行分析、提取特征參數(shù)時(shí),都要先進(jìn)行預(yù)處理.預(yù)處理主要包括端點(diǎn)檢測、預(yù)加重、加窗分幀處理.本文端點(diǎn)檢測采用基于過零率和能量雙門限方法.預(yù)加重采用一階FIR高通濾波器來實(shí)現(xiàn),其中預(yù)加重系數(shù)?取0.97.經(jīng)過數(shù)字濾波之后,對語音進(jìn)行加窗分幀處理,設(shè)置幀長256,幀移128.

        2.3 特征提取

        語音信號經(jīng)過預(yù)處理之后,分別對每一幀語音信號依次提取最小延遲時(shí)間τ、關(guān)聯(lián)維數(shù)、K熵、最大Lyapunov 指數(shù)和Hurst指數(shù)5個(gè)非線性特征和聲學(xué)特征.聲學(xué)特征包括韻律特征(語速、過零率、能量、基頻、共振峰)和MFCC.特征提取之后,對上述特征計(jì)算統(tǒng)計(jì)函數(shù).這些統(tǒng)計(jì)函數(shù)主要包括最大值、最小值、均值和方差等.表1是本文采用的情感統(tǒng)計(jì)特征.

        表1 情感語音統(tǒng)計(jì)特征Tab.1 Statistical features of emotional speech

        2.4 實(shí)驗(yàn)結(jié)果與結(jié)論

        設(shè)計(jì)情感語音識別實(shí)驗(yàn),采用上述統(tǒng)計(jì)特征的不同組合分別作為支持向量機(jī)的輸入,設(shè)計(jì)6種實(shí)驗(yàn)(實(shí)驗(yàn)編號為1~6),從而驗(yàn)證非線性特征性能.實(shí)驗(yàn)訓(xùn)練語句占樣本語句70%,,測試語句占樣本語句30%,.支持向量機(jī)識別網(wǎng)絡(luò)的參數(shù)最優(yōu)值采用10倍交叉驗(yàn)證的方法獲?。?為不同特征組合情況下的4種情感識別結(jié)果.

        表2 不同特征組合的識別率對比Tab.2 Comparison of recognition rates of different combinations of features %

        從表2中可以得到以下結(jié)論.

        (1)從單獨(dú)采用韻律特征、MFCC和非線性特征的識別結(jié)果來看,非線性特征的平均識別率高出韻律特征平均識別率3.00%,,但是低于MFCC的平均識別率.雖然識別網(wǎng)絡(luò)單獨(dú)使用非線性特征的性能不是最優(yōu),但是也可以說明非線性特征用來作情感語音區(qū)分也是有效的.這也間接說明了非線性特征只是彌補(bǔ)了以往研究中忽略語音混沌特性的不足,并不能將情感語音的特性完全體現(xiàn)出來.

        (2)從韻律特征、MFCC和非線性特征相互融合后作為支持向量機(jī)輸入的3組實(shí)驗(yàn)中,可以得出:實(shí)驗(yàn)1和實(shí)驗(yàn)4識別結(jié)果相比較,平均識別率由69.00%,提升到82.50%,,識別率提高了13.50%,;實(shí)驗(yàn)2和實(shí)驗(yàn)5的平均識別率為80.88%,和84.50%,,MFCC和非線性特征相結(jié)合后,平均識別率提高了3.62%,.

        (3)從平均識別結(jié)果來看,實(shí)驗(yàn)3和實(shí)驗(yàn)4、5、6平均識別率分別為72.00%,、82.50%,、84.50%,和87.62%,,識別網(wǎng)絡(luò)的性能在不斷提高.除此之外,針對單一的4種情感的識別結(jié)果來看,隨著融合的特征種類增加,單一情感的識別性能也在不斷提高.由此可以看出:在上述的6個(gè)實(shí)驗(yàn)中,將3類特征融合識別性能的網(wǎng)絡(luò)可以達(dá)到最優(yōu).此外,也可以說明單獨(dú)使用非線性特征來代表情感語音的差異性是較為片面的,這與非線性特征的性質(zhì)有關(guān)系.這些非線性特征是將語音信號看作一維時(shí)間序列進(jìn)行數(shù)學(xué)處理得到的,忽略了情感語音信號中的聲學(xué)特性.所以,當(dāng)非線性特征與聲學(xué)特征結(jié)合后,才能更好地描述情感語音信號中的有效信息.

        (4)圖2描述了3類特征不同組合時(shí)的情感語音識別結(jié)果.從圖2可以看出,3類特征在不同組合時(shí)的識別結(jié)果趨勢是基本相同的.說明隨著不同類型特征個(gè)數(shù)的增加,識別網(wǎng)絡(luò)可以更好地區(qū)分情感語音信號.但是針對單一的“高興”情感和“憤怒”情感識別,實(shí)驗(yàn)6與實(shí)驗(yàn)5的識別率都是相同的,由此可以推測,純粹的特征維數(shù)累加不一定對識別率有積極的影響.在今后的研究中,筆者會對這一問題繼續(xù)進(jìn)行研究.

        圖2 3種實(shí)驗(yàn)的識別率比較Fig.2Comparison of recognition rates of three experiments

        綜上可得,非線性特征不僅可以有效區(qū)分情感語音,而且與韻律特征和MFCC相結(jié)合后,融合特征表現(xiàn)出的性能最優(yōu).由此證明,本文提取的非線性特征結(jié)合聲學(xué)特征可以更好地詮釋情感語音信號的特性.

        3 結(jié) 語

        本文從語音信號發(fā)聲過程中的混沌特性出發(fā),將非線性動(dòng)力學(xué)模型應(yīng)用到情感語音特征的提取階段,提取情感語音信號的非線性特征.設(shè)計(jì)情感語音識別實(shí)驗(yàn),將非線性特征與聲學(xué)特征相結(jié)合,驗(yàn)證識別網(wǎng)絡(luò)的性能是否得到改善.從實(shí)驗(yàn)結(jié)果來看,單獨(dú)使用非線性特征表現(xiàn)出的性能雖然也是較為理想的,但是識別率還是低于特征融合后的結(jié)果.針對本文設(shè)計(jì)的實(shí)驗(yàn)而言,非線性特征與聲學(xué)特征結(jié)合后的識別網(wǎng)絡(luò)可以得到相對最優(yōu)的結(jié)果.由此可以說明,非線性特征可以很好地彌補(bǔ)情感語音信號中的混沌特性,但是單獨(dú)用來代表情感語音的差異性也是較為片面的.在今后的研究中,將非線性特征與情感語音聲學(xué)特征相融合,尋找最強(qiáng)的特征組合仍是主要的研究方向.此外,針對非線性特征的跨數(shù)據(jù)庫研究也是另一研究方向.

        [1] 韓文靜,李海峰,阮華斌,等. 語音情感識別研究進(jìn)展綜述[J]. 軟件學(xué)報(bào),2014,25(1):37-50.

        Han Wenjing,Li Haifeng,Ruan Huabin,et al. Review on speech emotion recognition [J]. Journal of Software,2014,25(1):37-50(in Chinese).

        [2] Anagnostopoulos C N,Iliou T,Giannoukos I. Features and classifiers for emotion recognition from speech:A survey from 2000 to 2011 [J]. Artificial Intelligence Review,2012,43(2):155-157.

        [3] Screenivasa R K,Shashidhar G K. Robust Emotion Recognition Using Spectral and Prosodic Features [M]. New York:Springer,2013.

        [4] 趙 力,黃程韋. 實(shí)用語音情感識別中的若干關(guān)鍵技術(shù)[J]. 數(shù)據(jù)采集與處理,2014,29(2):157-170. Zhao Li,Huang Chengwei. Key technologies in practical speech emotion recognition [J]. Journal of Data Acquisition and Processing,2014,29(2):157-170(in Chinese).

        [5] 閆潤強(qiáng). 語音信號動(dòng)力學(xué)特性遞歸研究[D]. 上海:上海交通大學(xué)生命科學(xué)技術(shù)學(xué)院,2006.

        Yan Runqiang. Recurrence Analysis of Dynamical Characteristics for Speech Signals [D]. Shanghai:School of Life Science and Biotechnology,Shanghai Jiao Tong University,2006(in Chinese).

        [6] Patricia H,Jesus B A,Miguel A F,et al. Global selection of features for nonlinear dynamics characterization of emotional speech [J]. Cognitive Computation,2013,5(4):517-525.

        [7] Patricia H,Jesus B A,Miguel A F,et al. Nonlinear dynamics characterization to emotional speech [J]. Neurocomputing,2014(132):126-135.

        [8] 李 響,譚南林,李國正,等. 一種應(yīng)用語音多特征檢測駕駛疲勞的方法[J]. 儀器儀表學(xué)報(bào),2013,34(10):2231-2237.

        Li Xiang,Tan Nanlin,Li Guozheng,et al. Method of applying speech multi-features to detect driver fatigue [J]. Chinese Journal of Scientific Instrument,2013,34(10):2231-2237(in Chinese).

        [9] Zbancioc M D. Using the Lyapunov exponent from cepstral coefficients for automatic emotion recognition [C]//Proceedings of the 2014 International Conference and Exposition on Electrical and Power Engineering. Iasi:IEEE,2014:110-113.

        [10] Takens F. Detecting strange attractors in turbulence [C]// Lecture Notes in Math. New York:Springer,1981:366-381.

        [11] 呂金虎,陸安君,陳士華. 混沌時(shí)間序列分析及其應(yīng)用[M]. 武漢:武漢大學(xué)出版社,2002.

        Lü Jinhu,Lu Anjun,Chen Shihua. Chaotic Time Series Analysis and Its Application [M]. Wuhan:Wuhan University Press,2002(in Chinese).

        [12] 趙貴兵,石炎福. 從混沌時(shí)間序列同時(shí)計(jì)算關(guān)聯(lián)維和Kolmogorov熵[J]. 計(jì)算物理,1999,16(3):310-315.

        Zhao Guibing,Shi Yanfu. Computing fractal dimension and the Kolmogorov entropy from chaotic time series [J]. Chinese Journal of Computational Physics,1999,16(3):310-315(in Chinese).

        [13] Hurst H E. Long-term storage:An experimental study [J]. Journal of the Royal Statistical Society,1965,129(4):591-593.

        [14] Burkhardt F,Paeschke A,Rolfes M,et al. A database of German emotional speech [C]// Proceedings of the 2005,Interspeech. Lisbon:ISCA,2005:1517-1520.

        (責(zé)任編輯:田 軍)

        Feature Extraction of Emotional Speech Based on Chaotic Characteristics

        Sun Ying1,Yao Hui1,Zhang Xueying1,Zhang Qiping1,2
        (1.College of Information Engineering,Taiyuan University of Technology,Taiyuan 030024,China;2.Palmer School of Library and Information Science,Long Island University,New York 11548,USA)

        Based on the chaotic characteristics of emotional speech,nonlinear features and frequently used acoustic features were extracted to effectively differentiate emotions by applying a nonlinear dynamic model to analyze the emotional speech signals.The effectiveness of nonlinear features was verified by comparison with the integrated model of nonlinear features with different acoustic features(prosodic features and MFCC)on the recognition rates of emotional speech.It also studied the influences of chaotic characteristics of speech signals on the recognition rates of emotional speech.Four types of emotion(happiness,anger,sadness,and neutrality)from Berlin database were selected and support vector machine was used for emotion recognition.The results show the nonlinear features effectively represent the chaotic characteristics of emotional speech signals.The recognition rates of emotional speech can be significantly improved when nonlinear features are combined with traditional acoustic features.

        emotional speech recognition;chaotic characteristic;support vector machine;nonlinear feature

        TN912.34

        A

        0493-2137(2015)08-0681-05

        10.11784/tdxbz201507039

        2015-03-15;

        2015-07-09.

        國家自然科學(xué)基金資助項(xiàng)目(61371193);山西省青年科技研究基金資助項(xiàng)目(2013021016-2);山西省回國留學(xué)人員科研資助項(xiàng)目(2013-034).

        孫 穎(1981— ),女,博士,講師,tyutsy@163.com.

        張雪英,tyzhangxy@163.com.

        時(shí)間:2015-07-13.

        http://www.cnki.net/kcms/detail/12.1127.N.20150713.1007.002.html.

        猜你喜歡
        特征信號情感
        信號
        鴨綠江(2021年35期)2021-04-19 12:24:18
        如何在情感中自我成長,保持獨(dú)立
        完形填空二則
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        如何表達(dá)“特征”
        情感
        不忠誠的四個(gè)特征
        如何在情感中自我成長,保持獨(dú)立
        基于FPGA的多功能信號發(fā)生器的設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:42
        抓住特征巧觀察
        国产高潮流白浆视频在线观看| 99在线视频精品费观看视| 亚洲av综合色区在线观看| 在线观看免费不卡网站| 中文字幕人妻在线中字| 久久乐国产精品亚洲综合| 国产在线无码一区二区三区| 美女丝袜美腿玉足视频| 久久久久久久久中文字幕| 国产操逼视频| 国产视频激情在线观看| 加勒比黑人在线| 四虎影视永久在线观看| 亚洲国产精品日韩av专区| 亚洲国产色图在线视频| 午夜理论片日本中文在线| 全黄性性激高免费视频| 爽爽午夜影视窝窝看片| 无码人妻专区一区二区三区| 国产精品亚洲一区二区三区在线| 免费看又色又爽又黄的国产软件| 国产乱沈阳女人高潮乱叫老| 在线视频一区二区亚洲| 一区二区三区日本伦理| 亚洲看片lutube在线观看| 精品伊人久久香线蕉| 一本久久伊人热热精品中文| 日本xxxx色视频在线观看免费| 中文无码乱人伦中文视频在线v| 久久久久久久综合日本| 国产精品亚洲综合久久| 少妇人妻精品一区二区三区| 在线观看国产高清免费不卡黄| 手机在线免费看av网站| 亚洲最大成人综合网720p| 中文国产日韩欧美二视频| 成人午夜免费福利| 久久亚洲中文字幕精品二区| 少妇高潮惨叫久久久久久电影| 国产亚洲精久久久久久无码苍井空| 久久久人妻丰满熟妇av蜜臀|