李琳,考希賓,萬(wàn)紅
(兵器工業(yè)衛(wèi)生研究所 中國(guó)兵器工業(yè)集團(tuán)人-機(jī)-環(huán)境重點(diǎn)實(shí)驗(yàn)室,西安 710065)
在醫(yī)療機(jī)構(gòu)里,看護(hù)機(jī)器人能夠代替護(hù)士對(duì)病人進(jìn)行體貼的照顧,還能時(shí)刻陪伴病人[2]。這些應(yīng)用對(duì)類人機(jī)器人的交流能力提出了更高的要求。在人與人的交流過(guò)程中,正確辨別對(duì)方的情緒是使得交談更加順利有效的重要前提[3]。為了實(shí)現(xiàn)機(jī)器人與人類的自主情感交互,我們需要機(jī)器人能夠自動(dòng)正確識(shí)別人類的各種情緒。
情緒是人們表達(dá)對(duì)外界事物看法最直觀的方式,它與人的思想和行為有緊密的聯(lián)系,是對(duì)多種感受、思想和行為的綜合而產(chǎn)生的心理和生理狀態(tài),在人與人的交流過(guò)程中能夠傳遞重要的信息[3]。情緒識(shí)別在智能人機(jī)交互、機(jī)器人領(lǐng)域是十分值得探究的前沿?zé)狳c(diǎn)方向。目前,情緒識(shí)別研究多數(shù)基于人的面部表情[4-5]、語(yǔ)音[6-8]和生理信號(hào)[9-12]來(lái)進(jìn)行。本研究著重于基于語(yǔ)音和生理信號(hào)的情緒識(shí)別,旨在同時(shí)應(yīng)用語(yǔ)音和EEG信號(hào),利用兩種信號(hào)的互補(bǔ)特性,從外在表現(xiàn)和生理反應(yīng)兩方面進(jìn)行情緒識(shí)別研究。
本研究的意義在于:
(1)分析語(yǔ)音和EEG兩類數(shù)據(jù)源的情緒識(shí)別結(jié)果,從數(shù)據(jù)源固有特性方面探究其對(duì)情緒識(shí)別研究的重要意義。(2)使用多核學(xué)習(xí)算法進(jìn)行語(yǔ)音和EEG信號(hào)數(shù)據(jù)融合的情緒識(shí)別研究,探究異構(gòu)數(shù)據(jù)融合進(jìn)行情緒識(shí)別的新方法和新途徑。
目前對(duì)情緒的描述方法主要有兩種,分別為離散法和連續(xù)法。這兩個(gè)模型的示意圖見(jiàn)圖1和圖2。
圖2 三維情緒描述模型
基于語(yǔ)音的情緒識(shí)別研究最早可追溯到1983年,人們開(kāi)始使用一些聲學(xué)方面的統(tǒng)計(jì)特征來(lái)對(duì)不同情感進(jìn)行分類[15-16]。
語(yǔ)音信號(hào)特征包含了不同情緒類型信息。常見(jiàn)的用于語(yǔ)音情緒識(shí)別的特征可分為三類,分別為韻律特征、音質(zhì)特征和譜特征。韻律特征有能量[7-8]、幅值[6]、音調(diào)[3,6-8]等;音質(zhì)特征包括共振峰、聲門系數(shù)等;譜特征有Mel倒譜系數(shù)(MFCC)[3,7]、線性預(yù)測(cè)系數(shù)(LPC)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)[3]和功率譜[6]等。
冷,還是冷,這徹骨的寒冷真是讓易非怕了。她睜開(kāi)眼睛盯著黑乎乎的屋頂,想著田有園的話,他讓她原諒陳留,都已經(jīng)結(jié)束了,我的人生,他的那一頁(yè)都已經(jīng)翻過(guò)去了,還談什么原諒不原諒呢?都結(jié)束了,就意味著沒(méi)有交集了,沒(méi)有交集了,愛(ài)與恨、原諒不原諒又有什么關(guān)系呢?那就像是對(duì)待電影里的一個(gè)人物,恨與愛(ài)已沒(méi)有任何意義,易非都懶得去想。
最常用的基于語(yǔ)音進(jìn)行情緒識(shí)別的分類器包括:SVM[3],高斯混合模型(GMM)[8,13]、隱馬爾可夫模型(HMM)[13],多層感知器(MLP),隨機(jī)森林(RF),堆疊上下文和投票法[14]等。常用的回歸算法有局部線性重構(gòu)(LLR),魯棒回歸(RR)[7]和支持向量回歸機(jī)(SVR)[7]等。
基于EEG的情緒識(shí)別研究較語(yǔ)音情緒識(shí)別起步晚,但得到了快速的發(fā)展。EEG信號(hào)的特征主要有三類,分別為時(shí)域、頻域以及時(shí)頻域的特征。時(shí)域特征有事件相關(guān)電位、統(tǒng)計(jì)特征、Hjorth參數(shù)、非平穩(wěn)性指標(biāo)、分形維數(shù)和高階交叉等;頻域特征有各頻帶功率和高階譜等;時(shí)頻域特征包括Hilber-Huang譜和離散小波變換等[9]。
EEG情緒識(shí)別常用的分類算法有SVM、反向傳播算法(BP算法)、k-NN等。與語(yǔ)音情緒識(shí)別相同,使用SVM進(jìn)行EEG情緒識(shí)別的分類精度較高。Y.P.Lin等人通過(guò)對(duì)人在聽(tīng)到四種不同類型音樂(lè)時(shí)(高興、生氣、悲傷和滿意)的腦電波進(jìn)行采集,使用多層感知器和SVM分別對(duì)其進(jìn)行分類。結(jié)果顯示,使用SVM的分類精度較高,最高分類精度為82.29%[17]。
本研究?jī)?nèi)容與目標(biāo)有以下兩個(gè)方面:
(1)對(duì)已有純凈語(yǔ)音信號(hào)和EEG信號(hào)的情緒識(shí)別結(jié)果進(jìn)行分析;嘗試從不同數(shù)據(jù)的固有特性方面分析原因,理解不同數(shù)據(jù)類型對(duì)情緒識(shí)別研究的重要意義。
(2)對(duì)語(yǔ)音信號(hào)和EEG信號(hào)特征進(jìn)行直接組合,另外,使用多核學(xué)習(xí)算法對(duì)兩類數(shù)據(jù)進(jìn)行融合,對(duì)使用兩種方法進(jìn)行融合的數(shù)據(jù)分別進(jìn)行情緒識(shí)別分類,探索多源數(shù)據(jù)融合在情緒識(shí)別研究中的新方法。
所用數(shù)據(jù)為18名中國(guó)大學(xué)生(9男9女)的語(yǔ)音與EEG數(shù)據(jù)。18位被試平均年齡為22歲。
3.2.1 SVM
支持向量機(jī)(Support Vector Machine,SVM)最初由Vapnik[18]于1995年提出,其主要思想是建立一個(gè)超平面作為決策曲面,使兩類數(shù)據(jù)之間的隔離邊緣被最大化。其示意圖如圖3所示。本研究使用SVM進(jìn)行情緒識(shí)別的分類。
圖3 SVM線性二分類問(wèn)題
3.2.2 多核學(xué)習(xí)
多核學(xué)習(xí)方法(Multi-Kernel Learning)是核機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)前沿?zé)狳c(diǎn)研究方向。對(duì)于非線性數(shù)據(jù)的分類,核方法被廣泛應(yīng)用。但在一些復(fù)雜情況下(比如數(shù)據(jù)異構(gòu)或不規(guī)則,樣本量過(guò)大或者分布不平坦),單個(gè)核函數(shù)的核機(jī)器不能有效解決這些問(wèn)題,無(wú)法滿足其應(yīng)用,因此,對(duì)于多源數(shù)據(jù)采取不同核函數(shù),把多個(gè)核函數(shù)組合起來(lái)并訓(xùn)練每個(gè)核的權(quán)重,這便是多核學(xué)習(xí)方法。
線性合成核是對(duì)多個(gè)核函數(shù)進(jìn)行線性組合而得到的,其具體流程如圖4所示。
圖4 多核線性組合合成核流程圖
分類結(jié)果如表1所示。從表中能夠得到,自然語(yǔ)音的識(shí)別精度低于純凈語(yǔ)音;純凈語(yǔ)音的識(shí)別精度最高可達(dá)74.68%,EEG的識(shí)別精度最高可達(dá)89.87%。均值來(lái)看,使用純凈語(yǔ)音和EEG融合的識(shí)別精度最高,為74.75%。
表1 情緒識(shí)別分類結(jié)果表
雖然數(shù)據(jù)結(jié)果具有個(gè)體差異性,但整體的規(guī)律是EEG信號(hào)的情緒識(shí)別精度普遍高于語(yǔ)音信號(hào),尤其是使用SVM-RBF算法。以上結(jié)果說(shuō)明, EEG信號(hào)能夠更好地進(jìn)行情緒識(shí)別。EEG信號(hào)能夠真實(shí)反應(yīng)外界環(huán)境發(fā)生變化時(shí)人類生理狀態(tài)的變化,特別是當(dāng)人們接受某種有效刺激后,其EEG信號(hào)會(huì)快速發(fā)生變化,這一變化很難人為進(jìn)行改變控制,且人們不能對(duì)EEG信號(hào)進(jìn)行偽裝,只要刺激有效,就能檢測(cè)到信號(hào)的差異。而語(yǔ)音信號(hào)則不同,一方面,人們能夠?qū)φZ(yǔ)音中的情緒進(jìn)行人為偽裝,即人們使用語(yǔ)音所表達(dá)的情緒不一定是其真實(shí)情緒;另一方面,有些人不善于表達(dá)情緒,則使用其語(yǔ)音進(jìn)行情緒識(shí)別結(jié)果并不會(huì)很好。
研究中對(duì)純凈語(yǔ)音信號(hào)和EEG信號(hào)分別進(jìn)行了情緒識(shí)別,由于這兩類信號(hào)在對(duì)情緒的表征方面各有優(yōu)缺點(diǎn)而又相互互補(bǔ),我們將這兩類信號(hào)的特征值進(jìn)行融合并對(duì)其進(jìn)行了情緒分類。
表1表明,進(jìn)行特征融合后的分類精度均比兩類數(shù)據(jù)各自的分類精度高,平均最高能夠達(dá)到20%以上。
以上結(jié)果表明,多源數(shù)據(jù)特征融合進(jìn)行情緒識(shí)別的分類效果好于對(duì)單一數(shù)據(jù)進(jìn)行分類。說(shuō)明單一數(shù)據(jù)源在進(jìn)行情緒識(shí)別分析中由于數(shù)據(jù)的固有特性會(huì)影響分類效果,而多源數(shù)據(jù)融合進(jìn)行識(shí)別則將能夠?qū)Σ煌瑪?shù)據(jù)的缺陷進(jìn)行互補(bǔ),更加全面且精確地反映各類情緒變化。
EEG信號(hào)的情緒識(shí)別效果整體較語(yǔ)音信號(hào)好。由于EEG信號(hào)能夠反映外界環(huán)境發(fā)生變化時(shí)人類生理狀態(tài)的變化,特別是當(dāng)人們接受某種有效刺激后,其EEG信號(hào)會(huì)快速發(fā)生變化,這一變化很難人為進(jìn)行改變控制。而語(yǔ)音信號(hào)則不同,一方面,人們可以人為偽裝語(yǔ)音中的情緒表達(dá),另一方面,有些人不善于表達(dá)情緒狀態(tài),其語(yǔ)音中的情緒信息不夠精確。
多源數(shù)據(jù)特征融合進(jìn)行情緒識(shí)別的分類效果好于使用單一數(shù)據(jù)的分類效果。在數(shù)據(jù)融合方法中,多核學(xué)習(xí)算法的分類效果較單核分類器好。多核學(xué)習(xí)算法對(duì)不同種類的數(shù)據(jù)使用不同的核函數(shù),可以有選擇地使用適合各個(gè)數(shù)據(jù)類型的核函數(shù),因此多核學(xué)習(xí)算法有較強(qiáng)的多源數(shù)據(jù)分類性能。
在未來(lái)的研究中,我們組將實(shí)現(xiàn)機(jī)器人與人的情感交互。針對(duì)本論文的研究結(jié)論,在進(jìn)行人機(jī)情感交互研究中,首先需要對(duì)噪聲進(jìn)行處理,獲得盡量純凈的語(yǔ)音信號(hào);其次是選擇最佳的多核學(xué)習(xí)算法進(jìn)行多種數(shù)據(jù)的融合,以達(dá)到更加精準(zhǔn)的情緒識(shí)別結(jié)果,進(jìn)行更加有效的人機(jī)情感交互。