胡海翔貴州交通職業(yè)技術(shù)學(xué)院,貴州貴陽(yáng) 550008
語(yǔ)音情感識(shí)別中情感特征研究進(jìn)展
胡海翔
貴州交通職業(yè)技術(shù)學(xué)院,貴州貴陽(yáng)550008
摘要近年來(lái),隨著人機(jī)交換技術(shù)的迅猛發(fā)展,語(yǔ)音情感識(shí)別引起了研究者廣泛的關(guān)注,特別是在語(yǔ)音情感特征提取方面,研究者做了大量工作,取得了豐碩的成果。本文首先介紹了語(yǔ)音情感識(shí)別系統(tǒng)的模型,然后對(duì)情感識(shí)別中用到的語(yǔ)音情感特征進(jìn)行了總結(jié)分析,并對(duì)情感特征提取面臨的問(wèn)題進(jìn)行了探討。
關(guān)鍵詞語(yǔ)音;情感特征;特征提取;情感識(shí)別
隨著信息技術(shù)的飛速發(fā)展以及人機(jī)交互技術(shù)的不斷進(jìn)步,人們對(duì)計(jì)算機(jī)的要求越來(lái)越高,人們希望未來(lái)和計(jì)算機(jī)的交互能像人與人之間的交流一樣,既方便,快捷,又具人性化。語(yǔ)音作為人類(lèi)交流的主要工具之一,不僅能傳送語(yǔ)義內(nèi)容,同時(shí)不同語(yǔ)氣的發(fā)音還包含大量情感信息,因此如何讓計(jì)算機(jī)從語(yǔ)音中識(shí)別出說(shuō)話(huà)者的情感狀態(tài),成為了研究熱點(diǎn),而語(yǔ)音情感識(shí)別廣闊的應(yīng)用前景也引起了越來(lái)越多的研究者的重視。語(yǔ)音情感識(shí)別不僅能應(yīng)用于人機(jī)交互系統(tǒng),還能廣泛的應(yīng)用于遠(yuǎn)程網(wǎng)絡(luò)教學(xué)、醫(yī)療輔助、反恐偵測(cè),客戶(hù)服務(wù)等領(lǐng)域[1]。
語(yǔ)音情感識(shí)別的系統(tǒng)模型主要由3部分組成,即語(yǔ)音信號(hào)處理、情感特征的提取和語(yǔ)音情感識(shí)別。
語(yǔ)音信號(hào)處理主要包含語(yǔ)音信號(hào)的采集、數(shù)字化、預(yù)處理、頻譜提取等方面,它主要為下一步的特征提取做準(zhǔn)備;情感特征提取就是從處理好的語(yǔ)音數(shù)字信號(hào)中提取出能表征語(yǔ)音情感的特征向量;而情感識(shí)別則是通過(guò)選好的分類(lèi)算法將情感特征向量進(jìn)行分類(lèi)從而達(dá)到識(shí)別的目的。其中,情感特征的提取是其中的重要環(huán)節(jié),因?yàn)榍楦刑卣魇钦Z(yǔ)音信號(hào)內(nèi)所含情感信息的抽象,它的好壞直接影響系統(tǒng)情感識(shí)別準(zhǔn)確性。因此,本文主要對(duì)語(yǔ)音情感識(shí)別中情感特征的研究現(xiàn)狀進(jìn)行分析總結(jié)。
從1972年Williams發(fā)現(xiàn)人的情感變化對(duì)語(yǔ)音的基音輪廓有很大的影響,并將其用于語(yǔ)音情感識(shí)別的研究開(kāi)始到如今,經(jīng)過(guò)四十多年的探索,語(yǔ)音情感特征的類(lèi)型越來(lái)越豐富,語(yǔ)音情感識(shí)別的效果越來(lái)越好。但總體而言,目前用于語(yǔ)音情感識(shí)別的情感特征大致可以分為三種類(lèi)型,即韻律特征、音質(zhì)特征以及基于頻譜的相關(guān)特征。這些特征一般相互融合以全局特征統(tǒng)計(jì)值的形式,如統(tǒng)計(jì)最大值、最小值、平均值、方差等參與情感識(shí)別。
2.1韻律特征
韻律特征是指蘊(yùn)含于語(yǔ)音之中但不同于語(yǔ)義內(nèi)容的一類(lèi)語(yǔ)音特征。它具體體現(xiàn)為音量的高低、發(fā)音的長(zhǎng)短、語(yǔ)速的快慢、語(yǔ)氣的輕重等,決定了講話(huà)聲音的抑揚(yáng)頓挫,是對(duì)語(yǔ)音表達(dá)方式的一種結(jié)構(gòu)性安排及補(bǔ)充。它的存在與否并不影響我們對(duì)字、詞、句的聽(tīng)辨,但卻與語(yǔ)音中蘊(yùn)含的情感密切相關(guān)。如當(dāng)人憤怒時(shí),說(shuō)話(huà)語(yǔ)速明顯加快、音量高、語(yǔ)氣重;而悲傷時(shí)語(yǔ)調(diào)低沉、語(yǔ)速慢、音量小等。
目前,最為常用的韻律特征主要有:基音頻率、能量、時(shí)長(zhǎng)等。Iliou等人研究了德語(yǔ)情感語(yǔ)料庫(kù)中的七種情感語(yǔ)音,提取了35維韻律特征,取得了約51%的情感識(shí)別率。Zhang等人以漢語(yǔ)情感語(yǔ)音庫(kù)為研究對(duì)象,提取了四種情感語(yǔ)音的韻律特征,得到了約76%的情感識(shí)別率。Wang等人也基于漢語(yǔ)情感語(yǔ)料庫(kù)做了研究,提取了六類(lèi)情感語(yǔ)音的韻律特征,采用支持向量機(jī)做識(shí)別得到了約88%的平均情感識(shí)別率。
韻律特征是語(yǔ)音情感識(shí)別中應(yīng)用最早、使用最為廣泛、并且情感區(qū)分能力已得到了研究者一致認(rèn)可的一類(lèi)情感特征。
2.2音質(zhì)特征
音質(zhì)特征是一類(lèi)用來(lái)體現(xiàn)說(shuō)話(huà)人語(yǔ)音是否清晰純凈、容易辨識(shí)的語(yǔ)音特征。人在不同情感狀態(tài)下,其聲音的質(zhì)量會(huì)有很大不同,具體體現(xiàn)為:隨情緒波動(dòng),人會(huì)不由自主的產(chǎn)生喘息、顫音、哽咽等。而在不同情感狀態(tài)下,這些聲學(xué)表現(xiàn)各不相同,因此,聲音質(zhì)量的變化蘊(yùn)含有豐富的情感信息,提取音質(zhì)特征有利于語(yǔ)音情感的識(shí)別。
在語(yǔ)音情感識(shí)別中用于衡量聲音質(zhì)量的音質(zhì)特征一般有:共振峰、呼吸喉化音和聲門(mén)參數(shù)等。文獻(xiàn)的研究表明,語(yǔ)音情感與音質(zhì)特征有很大關(guān)聯(lián)性。R.Sun等將聲門(mén)參數(shù)和基頻、能量等韻律特征在情感識(shí)別中發(fā)揮的作用進(jìn)行了比較。眾多研究證明,音質(zhì)特征有利于語(yǔ)音情感的識(shí)別。
2.3基于頻譜的特征
頻譜特征是語(yǔ)音情感識(shí)別中衍生種類(lèi)最多,應(yīng)用最為廣泛的一類(lèi)情感特征向量,它一般是通過(guò)模擬人的語(yǔ)音產(chǎn)生機(jī)制或聽(tīng)覺(jué)特性而提取,因此,情感區(qū)分效果較為理想,一直備受研究者重視。如使用最為廣泛的線性預(yù)測(cè)倒譜系數(shù)(LPCC),它是模擬了人的聲道特性、聲門(mén)激勵(lì)特性而提取的特征參數(shù);而梅爾頻率倒譜系數(shù)(MFCC)則是模仿了人耳聽(tīng)覺(jué)特性。除了LPCC和MFCCC,還有一些新的頻譜特征也用于語(yǔ)音情感識(shí)別,Yildirim
等人將頻譜能量特征與語(yǔ)音韻律特征相融合對(duì)四類(lèi)英語(yǔ)情感語(yǔ)音進(jìn)行識(shí)別,取得了75%的平均情感識(shí)別率。此外,隨著信號(hào)處理技術(shù)的不斷進(jìn)步,一些基于頻譜的新特征也被探索出來(lái)用于情感的識(shí)別,葉吉祥等[2]利用希爾伯特黃變換提取語(yǔ)音信號(hào)的邊際能量譜特征用于情感識(shí)別也取得了不錯(cuò)的效果。
盡管經(jīng)過(guò)幾十年的不斷發(fā)展以及研究者的不懈努力,越來(lái)越多的新的情感特征被不斷探索出來(lái),對(duì)語(yǔ)音情感識(shí)別的研究進(jìn)展起到了巨大的推動(dòng)作用,但情感特征的提取依然存在一些問(wèn)題,主要表現(xiàn)在以下方面。
1)語(yǔ)料庫(kù)語(yǔ)種單一,提取的情感特征局限性較大。
目前,用于語(yǔ)音情感識(shí)別的語(yǔ)料庫(kù)大多語(yǔ)種單一,說(shuō)話(huà)人及情感種類(lèi)數(shù)量有限,提取出的情感特征受到了很大的局限,有些新的情感特征在一種語(yǔ)料庫(kù)上的識(shí)別效果好,而在其他語(yǔ)料庫(kù)情感識(shí)別上卻波動(dòng)較大,而現(xiàn)實(shí)環(huán)境更為復(fù)雜,它是一個(gè)動(dòng)態(tài)的實(shí)時(shí)變化的語(yǔ)境。因此,為了使語(yǔ)音情感識(shí)別從理論走向應(yīng)用,探索適用性強(qiáng),識(shí)別效果穩(wěn)定的情感特征依然需要更多的努力。
2)情感強(qiáng)度相近的情感語(yǔ)音難以辨識(shí)。
情感強(qiáng)度相近的語(yǔ)音由于在發(fā)音上具有相似的生理特性,如高興語(yǔ)音和生氣語(yǔ)音它們?cè)诎l(fā)音上語(yǔ)速都較快,語(yǔ)音信號(hào)能量都較高,因此提取的情感特征參數(shù)都較為相似,這為情感的識(shí)別帶來(lái)了困難。探索能較好區(qū)分相近情感強(qiáng)度的語(yǔ)音情感特征仍然是未來(lái)研究者需要進(jìn)一步努力的方向。
語(yǔ)音情感識(shí)別是一門(mén)有廣闊應(yīng)用前景的學(xué)科,經(jīng)過(guò)幾十年的發(fā)展,在部分領(lǐng)域,它已逐漸從理論研究走向了實(shí)際應(yīng)用,盡管我們已經(jīng)取得了較大的成果,然而依然有一些亟待解決的問(wèn)題。情感特征提取作為語(yǔ)音情感識(shí)別中的重要環(huán)節(jié),它對(duì)情感的識(shí)別的準(zhǔn)確性起著決定性作用,本文對(duì)目前情感識(shí)別中用到的情感特征進(jìn)行了分析總結(jié),并對(duì)情感特征提取面臨的問(wèn)題進(jìn)行了探討,以期為下一步的研究工作指明方向。
參考文獻(xiàn)
[1]張永皋,馬青玉,孫青.基于MFCC和CHMM技術(shù)的語(yǔ)音情感分析及其在教育中的應(yīng)用研究[J].南京師范大學(xué)學(xué)報(bào),2009,9(2):89-92.
[2]葉吉祥,胡海翔.Hilbert邊際能量譜在語(yǔ)音情感識(shí)別中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2014(7).
作者簡(jiǎn)介:胡海翔,碩士研究生,教師,工作單位:貴州交通職業(yè)技術(shù)學(xué)院,研究方向:人工智能、語(yǔ)音情感識(shí)別、通信技術(shù)
中圖分類(lèi)號(hào)TP39
文獻(xiàn)標(biāo)識(shí)碼A
文章編號(hào)1674-6708(2015)140-0223-01