葉吉祥,劉亞
1.長(zhǎng)沙理工大學(xué)計(jì)算機(jī)與通信工程學(xué)院,長(zhǎng)沙 410114
2.中南大學(xué)信息科學(xué)與工程學(xué)院,長(zhǎng)沙 410083
ITD在語(yǔ)音情感識(shí)別中的研究
葉吉祥1,2,劉亞1
1.長(zhǎng)沙理工大學(xué)計(jì)算機(jī)與通信工程學(xué)院,長(zhǎng)沙 410114
2.中南大學(xué)信息科學(xué)與工程學(xué)院,長(zhǎng)沙 410083
情感特征提取是語(yǔ)音情感識(shí)別中重要的步驟,特征提取的好壞直接影響情感識(shí)別的準(zhǔn)確率[1]?;诖_定性線性系統(tǒng)理論,傳統(tǒng)語(yǔ)音情感特征主要提取三種重要的聲學(xué)特征:韻律特征、音質(zhì)特征、譜特征[2]。近年來(lái),研究者開(kāi)始基于語(yǔ)音本質(zhì)上是非平穩(wěn)非線性的這一特點(diǎn)提取情感特征,主要提取情感語(yǔ)音的瞬時(shí)參數(shù)特征[3]和混沌特征[4-7]。其中有張衛(wèi)等人用EMD瞬時(shí)參數(shù)結(jié)合Teager能量用于語(yǔ)音情感識(shí)別[8],取得了一定的識(shí)別效果,但是實(shí)驗(yàn)只針對(duì)“高興、生氣、中立”三種情感,而且EMD的計(jì)算速率也不高。文獻(xiàn)[9-10]用分形維表征語(yǔ)音的混沌特征,并作為新的語(yǔ)音特征進(jìn)行識(shí)別實(shí)驗(yàn),雖然平均識(shí)別率達(dá)到了82.4%,但是生氣的識(shí)別率只有70%,同時(shí)也存在提取特征速率不高的缺點(diǎn)。
通過(guò)分析目前引入的非線性特征,發(fā)現(xiàn)特征提取效率和最后的識(shí)別效果還有很多局限性,有待進(jìn)一步的改進(jìn)。
由于固有時(shí)間尺度分解[11](Intrinsic Time-scale Decomposition,ITD)具有端點(diǎn)效應(yīng)小、計(jì)算速度快、提取瞬時(shí)信息精確的特點(diǎn),能很好地表征非穩(wěn)定非線性信號(hào)的特性,因此將ITD引入語(yǔ)音情感識(shí)別中,獲得其PR特征,結(jié)合傳統(tǒng)特征對(duì)四種情感語(yǔ)音進(jìn)行識(shí)別實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)顯示,平均識(shí)別率達(dá)到了86.5%,可以較好地提高識(shí)別率和表征情感狀態(tài)。
2.1 ITD分解
步驟3將Lt作為新原始的信號(hào)重復(fù)上述步驟,直到基線信號(hào)為一單調(diào)函數(shù)或常函數(shù)。即原始信號(hào)被分解為:
式中H為合理旋算子,P為分解的層數(shù),HLKXt是第k階合理旋轉(zhuǎn)分量,LPXt為單調(diào)趨勢(shì)分量。
2.2 瞬時(shí)參數(shù)特征提取方法
采用基于“完整波”的方法[11]提取瞬時(shí)特征是指用分段的方法定義瞬時(shí)能量信息,在PR分量連續(xù)向上過(guò)零點(diǎn)的時(shí)間區(qū)間內(nèi),僅基于此區(qū)間內(nèi)的分析PR分量的單波形信息,所以能夠精確地表達(dá)非平穩(wěn)信號(hào)頻率時(shí)變特征。
2.3 關(guān)聯(lián)維數(shù)的測(cè)定方法
對(duì)語(yǔ)音信號(hào)進(jìn)行一次ITD分解后,得第一階合理旋轉(zhuǎn)(PR1)分量。對(duì)原信號(hào)和PR1分別進(jìn)行相空間重構(gòu)[12],用互信息方法求得時(shí)間遲延τ。采用G-P算法[13-14]求取原信號(hào)和PR1分量在不同嵌入維數(shù)下的關(guān)聯(lián)維數(shù)。
實(shí)驗(yàn)數(shù)據(jù)使用北航情感語(yǔ)音數(shù)據(jù)庫(kù)。它由7男8女錄制,包含7種情感狀態(tài)和20句錄制腳本。選取其中四種具有代表性的情感“悲傷、平靜、喜悅、憤怒”進(jìn)行識(shí)別實(shí)驗(yàn)。為了增加實(shí)驗(yàn)數(shù)據(jù)的多樣性,避免同質(zhì)語(yǔ)音對(duì)實(shí)驗(yàn)結(jié)果的影響,實(shí)驗(yàn)采用混合數(shù)據(jù)進(jìn)行實(shí)驗(yàn),對(duì)于每一種情感都在數(shù)據(jù)庫(kù)中選取不同人的不同語(yǔ)句共70個(gè)語(yǔ)音樣本,其中40句作為訓(xùn)練樣本,30句作為測(cè)試樣本。
3.1 PR瞬時(shí)特征
將4種情感的所有訓(xùn)練樣本,經(jīng)過(guò)預(yù)處理后,進(jìn)行多次ITD分解,通過(guò)對(duì)實(shí)驗(yàn)數(shù)據(jù)分析,發(fā)現(xiàn)當(dāng)不同情感的語(yǔ)音分解到第八層時(shí),基線信號(hào)基本為一個(gè)單調(diào)趨勢(shì)分量或常函數(shù),符合分解停止的條件,故參照此結(jié)果可對(duì)所有用于實(shí)驗(yàn)的語(yǔ)音分解到第8階,得到前8階的PR分量。
圖1和圖2分別是同一人不同情感的前8階PR分量中的第1、第2階PR分量,記為PR1、PR2,它們包含信號(hào)主要的瞬時(shí)信息。從圖分析,憤怒和喜悅由于情感強(qiáng)烈,他們的PR1、PR2的瞬時(shí)幅度比平靜和悲傷的大,瞬時(shí)頻率也比平靜和悲傷高。此外,相似強(qiáng)度情感之間的頻率也有差異,平靜的頻率在大部分時(shí)間段都比悲傷的高,憤怒的頻率高于喜悅。從以上的分析可知,四種情感的PR分量的瞬時(shí)幅度和瞬時(shí)頻率是有區(qū)別的,能在一定程度上表征情感狀態(tài)。
圖1 同一個(gè)人四種情感的PR1分量
3.2 PR1關(guān)聯(lián)維數(shù)
由于語(yǔ)音具有混沌特性,將語(yǔ)音進(jìn)行相空間重構(gòu)后提取關(guān)聯(lián)維數(shù)可作為情感語(yǔ)音的新特征。圖3為語(yǔ)音庫(kù)中某一語(yǔ)句(錄音語(yǔ)句編號(hào)為15,語(yǔ)句內(nèi)容:明天我要搬家啦)的原信號(hào)和PR1分量的關(guān)聯(lián)維數(shù)對(duì)比圖。
圖3 不同情感狀態(tài)原信號(hào)的關(guān)聯(lián)維數(shù)
圖4 不同情感狀態(tài)PR1分量的關(guān)聯(lián)維數(shù)
圖3為原信號(hào)提取不同情感狀態(tài)下的關(guān)聯(lián)維數(shù)的結(jié)果圖,可以看出四種情感的關(guān)聯(lián)維數(shù)曲線雖然彼此分離,但是平靜和悲傷,喜悅和憤怒的分離效果還不是很好,而且悲傷和憤怒收斂速度也不是很快。為了使提取的關(guān)聯(lián)維數(shù)效果更好,本文嘗試了將情感語(yǔ)音信號(hào)先進(jìn)行ITD分解,得到PR1分量,再對(duì)其相空間重構(gòu)后提取關(guān)聯(lián)維數(shù)。結(jié)果如圖4所示,由圖可知,悲傷和平靜的PR1關(guān)聯(lián)維數(shù)曲線更好地分離開(kāi)了,這是因?yàn)楸瘋姆群皖l率相對(duì)都比較低,時(shí)頻能量相對(duì)較少,當(dāng)ITD分解為PR1分量時(shí)去掉了一個(gè)基線信號(hào),又帶走了一部分時(shí)頻能量,當(dāng)求關(guān)聯(lián)維數(shù)的標(biāo)準(zhǔn)r不變時(shí),悲傷在單位體積范圍內(nèi)的吸引子會(huì)明顯減少,并很快進(jìn)入穩(wěn)定狀態(tài)。高興和憤怒,由于情感強(qiáng)度大且一定程度上相似,所以PR1關(guān)聯(lián)維數(shù)還是不能完全分離,但是在關(guān)聯(lián)維穩(wěn)定的區(qū)域,曲線分離的效果比原信號(hào)的也好了一些。根據(jù)以上的分析可知,將PR1的關(guān)聯(lián)維數(shù)作為新的特征參數(shù)可以更好地表征情感狀態(tài)。
4.1 特征提取
為了研究語(yǔ)音情感的PR特征,提取的特征主要有:ITD分解后PR瞬時(shí)參數(shù)特征、PR1關(guān)聯(lián)維數(shù)和原信號(hào)的傳統(tǒng)特征。PR分量瞬時(shí)特征包括:PR1至PR8瞬時(shí)幅度的均值、最大值、中心化瞬時(shí)幅度方差、瞬時(shí)幅度譜密度最大值、瞬時(shí)幅度變化率均值;PR1至PR8瞬時(shí)頻率的均值、最大值、歸一化瞬時(shí)頻率方差、瞬時(shí)頻率密度最大值、瞬時(shí)頻率變化率均值。傳統(tǒng)特征如表1所示。
表1 情感語(yǔ)音傳統(tǒng)特征
4.2 實(shí)驗(yàn)結(jié)果及分析
語(yǔ)音信號(hào)通過(guò)ITD處理后得到前8階的PR分量,并提取每一階PR分量瞬時(shí)特征,結(jié)合傳統(tǒng)特征使用SVM[15]情感識(shí)別分類(lèi)器進(jìn)行識(shí)別。識(shí)別結(jié)果如圖5所示。
圖5 四種情感的各階PR分量瞬時(shí)特征結(jié)合傳統(tǒng)特征的識(shí)別率分布圖
從圖5可知,除喜悅外,前3階各情感的識(shí)別率都相對(duì)比較高,由此選取前3階PR瞬時(shí)特征結(jié)合傳統(tǒng)特征做最后識(shí)別實(shí)驗(yàn)。各類(lèi)情感的最高識(shí)別率如表2所示。
表2 前三階PR瞬時(shí)特征結(jié)合傳統(tǒng)特征識(shí)別結(jié)果
從表2可得出識(shí)別率最高的是憤怒,達(dá)到了93.3%,悲傷識(shí)別率也超過(guò)了85%,相對(duì)來(lái)說(shuō)高興的識(shí)別率只有73.3%,是因?yàn)閼嵟透吲d的情感強(qiáng)烈程度相似,即便是PR分量,所包含的瞬時(shí)時(shí)頻信息也一定程度上相近,容易誤認(rèn)為是憤怒。悲傷和平靜也同樣如此,也有相互誤判的情況。
為了更好地檢測(cè)傳統(tǒng)特征、PR瞬時(shí)特征和PR1關(guān)聯(lián)維數(shù)的識(shí)別效果,使用SVM進(jìn)行了對(duì)比識(shí)別試驗(yàn)。有如下四種方案:
方案1單獨(dú)使用傳統(tǒng)特征(短時(shí)過(guò)零率、短時(shí)能量,MFCC等)進(jìn)行識(shí)別。
方案2 PR1關(guān)聯(lián)維數(shù)結(jié)合傳統(tǒng)特征進(jìn)行識(shí)別。
方案3 PR瞬時(shí)特征結(jié)合傳統(tǒng)特征進(jìn)行識(shí)別。
方案4 PR瞬時(shí)特征和PR1關(guān)聯(lián)維數(shù)結(jié)合傳統(tǒng)特征進(jìn)行識(shí)別。
四種不同方案的識(shí)別結(jié)果如表3所示。
表3 采用不同方案各情感的識(shí)別率(%)
從表3可以看出單獨(dú)使用傳統(tǒng)特征進(jìn)行識(shí)別時(shí),平均識(shí)別率只有75.9%,各情感的識(shí)別率相對(duì)比較低。同時(shí)對(duì)比方案2方案3,可以發(fā)現(xiàn),PR瞬時(shí)特征結(jié)合傳統(tǒng)特征后,除了喜悅外,各情感的識(shí)別率有了明顯的提高,憤怒的識(shí)別率達(dá)到了93.3%,平均識(shí)別率達(dá)到了84.2%,說(shuō)明PR瞬時(shí)特征總體是能夠很好地表征情感狀態(tài);PR1關(guān)聯(lián)維結(jié)合傳統(tǒng)特征后,雖然總體平均識(shí)別率沒(méi)有方案3高,較方案1各情感的平均識(shí)別率都有提高,平靜的識(shí)別率增加了11.3%,喜悅的識(shí)別率比方案1、3都高,說(shuō)明PR1關(guān)聯(lián)維數(shù)對(duì)表征情感有很好的補(bǔ)充作用。綜合以上的特點(diǎn),方案4將PR1關(guān)聯(lián)維數(shù)與PR瞬時(shí)特征、傳統(tǒng)特征進(jìn)行融合識(shí)別,喜悅的識(shí)別率與方案3相比提高了7.3%,整體的平均識(shí)別率也達(dá)到了86.5%,比傳統(tǒng)方案1提高了10.6%,從方案4可知,PR的瞬時(shí)特征和PR1的關(guān)聯(lián)維數(shù)能很好地刻畫(huà)情感語(yǔ)音的非線性特征,與傳統(tǒng)特征融合后,能更明顯地區(qū)分相似情感。
本文采用ITD算法對(duì)語(yǔ)音信號(hào)進(jìn)行處理,得到其PR特征,結(jié)合傳統(tǒng)特征,從語(yǔ)音的非平穩(wěn)非線性、混沌特性和短時(shí)平穩(wěn)性三個(gè)方面,較為全面地表征了四種情感狀態(tài),經(jīng)過(guò)SVM識(shí)別,獲得了較好的識(shí)別率,憤怒、悲傷和平靜的識(shí)別效果有了明顯提高。但是對(duì)于相似強(qiáng)度的情感,如憤怒和喜悅,悲傷和平靜仍然存在相互誤判,找到更好區(qū)分各情感狀態(tài)的特征仍是以后要研究的工作。
[1]林奕琳,韋崗,楊康才.語(yǔ)音情感識(shí)別的研究進(jìn)展[J].電路與系統(tǒng)學(xué)報(bào),2007,12(1):90-97.
[2]張石清,李樂(lè)民,趙知?jiǎng)?人機(jī)交互中的語(yǔ)音情感識(shí)別研究進(jìn)展[J].電路與系統(tǒng)學(xué)報(bào),2013,18(2):422-434.
[3]Huang N E,Shen Z,Long S R.A new view of nonli-near water waves:the Hilbert spectrum[J].Annu Rev Fluid Mech,1999,31(2):417-457.
[4]Schullar B,Rigoll G.Speech emotion recognition combining acoustic features and linguistic information in a hybrid supportvectormachineBeliefnetworkarchitecture[J]. IEEE,2004,28(28):571-577.
[5]Karadogan S G,Larsen J.Combining semantic and acoustic features for valence and arousal recognition in speech[C]// IEEE International Workshop on Cognitive Information Processing,2012,23(1):1-6.
[6]Wu Chung-hsien,Liang Weibin.Emotion recognition of affective speech based on multiple classifiers using acoustic prosodic information and semantic labels[J].IEEE Transactions on Affective Computing,2011,16(2):10-21.
[7]李銀山,李欣業(yè),劉波.分岔混沌非線性振動(dòng)及其在工程中的應(yīng)用[J].河北工業(yè)大學(xué)學(xué)報(bào),2004,33(2):96-103.
[8]張衛(wèi),張雪英,孫穎.EMD結(jié)合Teager能量用于語(yǔ)音情感識(shí)別[J].科學(xué)技術(shù)與工程,2013,24(13):278-280.
[9]Kinsner W,Grieder W.Speech segmentation using multifractal measures and amplification of signal features[C]// Proc of IEEE ICCI'08.Stanford:IEEE Computer Press,2008:351-357.
[10]葉吉祥,王聰慧.多重分形在語(yǔ)音情感識(shí)別中的研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(13):186-204.
[11]Osorio M G F.Intrinsic time-scale decomposition:timefrequency-energy analysis and real-time filtering of nonstationarysignals[J].ProceedingsoftheRoyalSociety SeriesA,2007,463(2078):321-342.
[12]Sun Dan,Meng Jun,Guan Yufan,et al.Inverter faults diagnosis in PMSM DTC drive using reconstruive phase space and fuzzy clustering[J].Proceedings of the CSEE,2007,27(16):49-53.
[13]Grassberger P,Procaccia I.Measuring the strangeness of strange attractors[J].Physica D,1983,9(132):189-208.
[14]Grassberger P,Procaccia I.Characterization of strange attractors[J].Phys Rev,1983,50(5):346-349.
[15]蘆濤,王成儒,韓笑蕾.基于的漢語(yǔ)語(yǔ)音情感識(shí)別研究[J].電子測(cè)量技術(shù),2007,30(3).
YE Jixiang1,2,LIU Ya1
1.College of Computer and Communication Engineering,Changsha University of Science and Technology,Changsha 410114,China
2.College of Information Science and Engineering,Central South University,Changsha 410083,China
In order to express speech emotional state better,this paper takes the Intrinsic Time-scale Decomposition(ITD)into extracting speech emotion features,decomposes the emotion speech into a sum of Proper Rotation(PR)components,extracts instantaneous characteristic parameters and correlation dimension as new emotional characteristic parameters,combines with traditional features and uses Support Vector Machine(SVM)for speech emotional recognition.The results show that recognition accuracy is improved obviously through using PR features parameters.
Intrinsic Time-scale Decomposition(ITD);Proper Rotation components(PR);PR features parameters;emotion recognition
為了更好地表征語(yǔ)音情感狀態(tài),將固有時(shí)間尺度分解(ITD)用于語(yǔ)音情感特征提取。從語(yǔ)音信號(hào)中得到前若干階合理旋轉(zhuǎn)(PR)分量,并提取PR分量的瞬時(shí)參數(shù)特征和關(guān)聯(lián)維數(shù),以此作為新的情感特征參數(shù),結(jié)合傳統(tǒng)特征使用支持向量機(jī)(SVM)進(jìn)行語(yǔ)音情感識(shí)別實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,引入PR特征參數(shù)后,與傳統(tǒng)特征的方案相比,情感識(shí)別率有了明顯提高。
固有時(shí)間尺度分解;合理旋轉(zhuǎn)分量;PR特征參數(shù);情感識(shí)別
A
TP391
10.3778/j.issn.1002-8331.1402-0342
YE Jixiang,LIU Ya.Speech emotion recognition based on Intrinsic Time-scale Decomposition.Computer Engineering and Applications,2014,50(22):203-206.
湖南省自然科學(xué)基金重點(diǎn)項(xiàng)目(No.10jj2050)。
葉吉祥(1963—),男,博士,教授,主要研究方向:人工智能、語(yǔ)音情感計(jì)算;劉亞(1987—),女,碩士研究生,主要研究方向:語(yǔ)音情感識(shí)別。E-mail:huyebowen@163.com
2014-02-27
2014-04-08
1002-8331(2014)22-0203-04
CNKI網(wǎng)絡(luò)優(yōu)先出版:2014-06-18,http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1402-0342.html