趙 力 黃程韋
(東南大學信息科學與工程學院,南京,210096)
信息技術(shù)正在越來越緊密地融入到人們的日常生活當中,人們需要便捷的獲取信息,就需要同各類計算機進行交互。情感計算技術(shù)可以改進人們與高科技的交互方式,從傳統(tǒng)的被動地使用機器,轉(zhuǎn)變到自然地人機交互。情感是人類一種重要的本能,它同理性思維和邏輯推理能力一樣,在我們的日常生活、工作、交流、處理事務(wù)和決策中扮演著重要的角色。隨著計算機技術(shù)的發(fā)展,和諧的人機交互日益受到研究者的重視,它不僅要求計算機理解用戶的情緒和意圖,而且需要對不同用戶、不同環(huán)境、不同任務(wù)給予不同的反饋和支持。人們試圖創(chuàng)建一種能感知、識別和理解人的情感,并針對人的情感做出智能、靈敏、友好反應(yīng)的計算系統(tǒng),即賦予計算機像人一樣地觀察、理解和生成各種情感特征的能力,使計算機能夠更加自動適應(yīng)操作者。實現(xiàn)這些功能,首先必須要求能夠識別操作者的情感,而后根據(jù)情感的判斷來調(diào)整交互對話的方式。
美國MIT媒體實驗室情感計算研究小組的領(lǐng)導人Rosalind Picard教授在1997年首次提出“情感計算”這個概念[1],情感計算是一個高度綜合化的技術(shù)領(lǐng)域,其研究內(nèi)容包括:情感機理的理論研究、情感信號的采集、情感信號的分類、建模與識別、情感理解、情感表達及情感生成等幾部分,主要從生理模式,面部表情及語音這3個切入點展開研究。目前,已有多個國家展開相關(guān)研究并取得了部分成果,研究機構(gòu)不僅局限于各國科研院所,而且也得到了該國有關(guān)部門的關(guān)注。例如,美國的MIT媒體實驗室的情感計算研究小組就在專門研究機器如何通過對外界信號的采樣,如人體的生理信號(血壓、脈搏、皮膚電阻等)、面部快照、語音信號來識別人的各種情感,并讓機器對這些情感做出適當?shù)姆磻?yīng)。日本文部省將“情感信息處理的信息學、心理學研究”作為重點研究領(lǐng)域。我國中國科學院和國內(nèi)眾多高校在情感信息處理的研究上也取得了一定的進展[2]。
情感識別應(yīng)用的一個著名的例子是Rosalind Picard教授提出來的“情感鏡子”,情感鏡子是一個與人交互的Agent,可以幫助用戶看到自己在不同的場合中的表現(xiàn),如在準備面試或演講中可以起到重要的作用。情感計算在人機交互中的應(yīng)用具有廣泛的應(yīng)用前景。例如,在視頻游戲領(lǐng)域,用戶可以站在屏幕前進行虛擬的網(wǎng)球比賽。采用了情感識別技術(shù)后,用戶的比賽體驗可以獲得極大的豐富。情感信息可以成為當前的多媒體內(nèi)容識別與分析中的一個新的維度。電影或電視廣播可以根據(jù)不同的情感內(nèi)容來進行檢索。在計算機輔助的教學中,情感計算技術(shù)可以幫助提高學生的學習興趣。例如,當學生在學習過程中出現(xiàn)煩躁情緒時,通過情感識別技術(shù),系統(tǒng)可以給予學生適當?shù)墓膭罨蛘呤菧p慢學習進度。當學生感到枯燥乏味時,系統(tǒng)可以給出更具有挑戰(zhàn)性的題目。在決策支持系統(tǒng)中情感識別技術(shù)同樣能夠起到重要的作用。例如,當操作人員表現(xiàn)出緊張或者煩躁等負面情緒時,系統(tǒng)可以給其分配較輕的任務(wù)。在人機交互中,引入語音情感技術(shù)后機器人或口語對話系統(tǒng)能夠更加自然地與人進行對話[3]。在機器人研究領(lǐng)域,某些研究者正致力于開發(fā)具有類似人類能力的機器人,其中情感的理解與表達是一個關(guān)鍵的研究領(lǐng)域[4]。語音情感識別技術(shù)還可以應(yīng)用于電話服務(wù)中心,系統(tǒng)可以檢測談話的語氣和情感,從而提高服務(wù)質(zhì)量。在信息查詢系統(tǒng)中加入情感識別分析功能,可以根據(jù)用戶情緒調(diào)整任務(wù)優(yōu)先級,從而提高智能信息檢索的效率;在教學實踐環(huán)節(jié),情感分析可以使得在教學的同時注重學生對信息的接收理解程度,從而及時調(diào)整教學節(jié)奏和進度,使得學生能更好地吸收知識;在工業(yè)生產(chǎn)領(lǐng)域,如電話通訊中,加入語音情感分析服務(wù)平臺,可以進一步提高通信質(zhì)量,使通話雙方交流更通暢;在醫(yī)學研究中,煩躁、焦慮、抑郁等不良情緒對治療有很大的阻礙作用,如果能夠更早發(fā)現(xiàn)病人情緒波動并及時穩(wěn)定,對病人的康復(fù)也有著積極作用;在家居環(huán)境中,老年人面臨“空巢”問題時,孤獨和不被理解等問題都是影響他們安度晚年的重要因素,上班族沒有足夠的時間耐心與父母交流,如果能在家電系統(tǒng)中增加情感分析功能,使之在日常交互中能與老人形成一定情感交流,可以在一定程度上緩解老年人的精神空虛,上班族在一天的煩勞工作結(jié)束后,也可以從家庭環(huán)境中獲得一定心理釋放。
除了以上這些應(yīng)用場合外,情感識別技術(shù)的研究本身能夠?qū)斫馊祟惽楦械漠a(chǎn)生、表達和感知具有重要的價值。隨著計算機技術(shù)的日益進步,高技術(shù)越來越深入的融入到人們的日常生活中,自然、高效和人性化的交互技術(shù)已成為了一個極為重要的研究領(lǐng)域。
語音作為人們交流的主要方式,語音信息在傳遞過程中由于說話人情感的介入而更加豐富。情感不僅可以強化語義信息,甚至可以改變語義信息。語音信號是語言的聲音表現(xiàn)形式,情感是說話人所處環(huán)境和心理狀態(tài)的反映,語音情感識別就是讓計算機能夠通過語音信號識別說話者的情感狀態(tài),是情感計算的重要組成部分[5-9]。由于語言包含了強烈的社會和文化背景,人們可以在非面對面的情況下表達出自己的心理狀態(tài),即使是不同膚色、不同語種的人在存在語言隔閡時,無法通過語義來溝通,但是仍然可以通過語音表達傳遞出情感信息并達到一些基本的理解。正是由于語言的這一社會文化特性,對語音信號中的情感進行分析判別時,不同語種之間所用的方法和判別標準既有共性又有異性,既具有一定參考性又不能完全照搬。這使得語音情感識別面臨許多挑戰(zhàn)性的難題,不僅存在于針對某種單一語言交流時的情感分析,也存在于不同文明背景下不同語種人們交流時的情感分析。
語音情感、面部表情、手勢、姿態(tài)以及生理信號等是情感表達與識別的途徑。以上各種情感表達方式之間是如何相互影響的,至今還沒有一個清楚的認識。Mehrabian曾對情感和態(tài)度的表達中,非言語的表達方式的重要性做了研究。Mehrabian的研究結(jié)果顯示,在面對面的交互中,情感的表達具有3個基本的要素:語義、語氣和身體語言。說話人給對方的好感程度與以上3個要素的關(guān)系可以粗略表示為:好感程度=7%語義+38%語氣+55%表情。
這一研究結(jié)果僅適用于語義與語氣不相互沖突的情況,也就是說在說話人說反話諷刺時不適用。根據(jù)Mehrabian的這一研究結(jié)果,可以看到在語音交談中,通常說話人的說話方式比說話內(nèi)容具有更重要的情感交流的作用。雖然情感可以通過很多種途徑表達,通過生理信號的測量來識別情感,如心電、腦電等,通常需要被試佩戴復(fù)雜的儀器設(shè)備,而語音作為情感的交流方式仍然是最便捷最自然的手段之一。語音作為日常生活中最常用的交流手段之一,特別是在同時處理多個事務(wù)的過程中,人機自然語音交互將發(fā)揮越來越重要的作用。
在研究情感識別之前,需要做的第一件事就是定義所要研究的對象,從而明確研究的范圍。然而“情感是什么?”這一個由來已久的問題,一直沒有一個統(tǒng)一的答案。Scherer曾指出:情感研究中的一個主要的問題是,缺乏對情感的一個一致的定義以及對不同情感類型的一個定性的劃分。雖然在文學上對情感的描述,存在一些廣泛接受的可能的分類,然而由于沒有一個對情感描述的公認的方法,對情感的分類學研究也一直沒有統(tǒng)一的意見[10-17]。
從日常表達上來說,人們常將情緒、情感、態(tài)度混淆起來,但是從研究的角度,研究者還是對此有不同看法。有研究者認為情感理解為一種因所處環(huán)境和心理狀態(tài)而由主觀沖動引起的強烈的感情狀態(tài),可以引起語音,表情以及行為上的表現(xiàn)。如Klaus對情感(Emotion)、情緒(Moods)、立場(Interpersonal stances),態(tài)度(Atitude)和性情(Afect dispositions)這些近義詞進行了研究,認為他們之間既有區(qū)別又不是絕對的獨立,其中以情感和態(tài)度最容易混淆。Ohala則認為態(tài)度更多是一種主動的感情色彩,而情感是被動的,兩者之間有本質(zhì)區(qū)別。然而到目前為止,研究者對情感的定義仍然沒有達成一致的觀點,Kleinginna列舉了近百名學者對情感的理解。對情感定義的不統(tǒng)一在一定程度上影響了情感計算的研究進展,這主要是由于情感隨人類進化而不斷發(fā)展的,人們對情感的認識在不同階段不同切入點就呈現(xiàn)出不同的理解,不同的情緒機理學說應(yīng)運而生。
早期的情緒研究主要是由哲學家、神經(jīng)病學家、神經(jīng)生理學家和心理學家分別進行的。早在公元前5世紀,古希臘學者就從生理心理角度,試圖對情緒進行分析。赫拉克利特認為情緒狀態(tài)是用身體溫度、出汗量等一些生理參數(shù)來體現(xiàn)的,如對于一個正常狀態(tài)下的人,他的身體溫度偏冷,汗液的分泌偏干的。柏拉圖將情感分作中性、高興和痛苦3種狀態(tài),他認為高興和痛苦兩種狀態(tài)是由中性狀態(tài)分離而來;在中性狀態(tài)時,人體的各個器官是和諧的,當這種和諧遭到破壞的時候,便產(chǎn)生了痛苦,而被破壞的和諧開始恢復(fù)時,便產(chǎn)生了高興。亞里士多德則將高興和痛苦看成是所有感情的基礎(chǔ),高興是一種相對獨立的情感,來源于中性的情感,而痛苦則是來源于高興的反方向。如果沒有感官和精神上的刺激,就不會有高興和痛苦的存在。我國古代把情緒理解為人性的波動和擾亂,有“情,波也;心,流也;性,水也”《關(guān)尹子》;“性之有動者謂之情,性之有喜怒猶如水之有波浪”(程頤),以及“性是未動,情是己動,心包括己,未動”(朱熹)之說。隨著文明的發(fā)展,道德、宗教、生活等因素也被人們納入情緒機理的考慮范圍內(nèi),如斯多葛派(Stoic)禁欲主義者認為多數(shù)情緒是有害的,原因是人們有不正確的信念和不恰當?shù)哪繕?。佛教中對情也有論述,分別指的是“喜、怒、憂、懼、愛、憎、欲”七種情愫。中醫(yī)中總結(jié)了“喜、怒、憂、思、悲、恐、驚”七種情緒狀態(tài),并指出這七種情態(tài)應(yīng)該掌握適當。如果掌握不當,例如大喜大悲、過分驚恐等等,就會使陰陽失調(diào)、氣血不周,從而這種精神上的錯亂會演變到身體上,形成各種疾病。
總的來說,在情緒機理的研究發(fā)展中,比較有影響的情緒理論有以下幾種:
(1)詹姆斯-朗格情緒學說:美國心理學家詹姆斯和丹麥生理學家蘭格分別提出內(nèi)容相同的一種情緒理論。他們強調(diào)情緒的產(chǎn)生是植物性神經(jīng)活動的產(chǎn)物。后人稱它為情緒的外周理論。即情緒刺激引起身體的生理反應(yīng),而生理反應(yīng)進一步導致情緒體驗的產(chǎn)生。詹姆斯提出情緒是對身體變化的知覺。在他看來,是先有機體的生理變化,而后才有情緒。所以悲傷由哭泣引起,恐懼由戰(zhàn)栗引起;蘭格認為情緒是內(nèi)臟活動的結(jié)果。他特別強調(diào)情緒與血管變化的關(guān)系。詹姆斯-蘭格理論看到了情緒與機體變化的直接關(guān)系,強調(diào)了植物性神經(jīng)系統(tǒng)在情緒產(chǎn)生中的作用;但是,他們片面強調(diào)植物性神經(jīng)系統(tǒng)的作用,忽視了中樞神經(jīng)系統(tǒng)的調(diào)節(jié)、控制作用,因而引起了很多的爭議。
(2)丘腦情緒學說:又稱為坎農(nóng)-巴德學說,它反駁了詹姆斯-朗格情緒學說,丘腦情緒學說認為情緒的產(chǎn)生是大腦皮層解除丘腦抑制的綜合功能,即激發(fā)情緒的刺激由丘腦進行加工,同時把信息輸送到大腦及機體的其他部分。輸送到大腦皮層的信息產(chǎn)生情緒體驗;輸送到內(nèi)臟和骨骼肌的信息激活生理反應(yīng)。身體變化和情緒經(jīng)驗是同時發(fā)生的,而情緒感覺則是由大腦皮層和自主神經(jīng)系統(tǒng)共同激起的結(jié)果。情緒發(fā)生的中心不是外周神經(jīng)系統(tǒng),而是丘腦。此后的一些實驗也證明,情緒的復(fù)雜生理機制在很大程度上取決于下丘腦、邊緣系統(tǒng)、腦干網(wǎng)狀結(jié)構(gòu)的功能,大腦皮層調(diào)節(jié)情緒的進行,控制皮層下中樞的活動。
(3)認知-評價學說:Arnold等人認為情緒是驅(qū)利避害的一種體驗傾向,任何評價都帶有情緒的性質(zhì),評價是由知覺而產(chǎn)生的活動傾向,當傾向強烈時就可稱為情緒。對情境事件的評價而引起的情緒會誘導人選擇適合于情境的反應(yīng)行動。該學說又被擴展為評價、再評價過程,包括篩選信息、評價、以及應(yīng)付沖動、交替活動、身體反應(yīng)的反饋、對活動后果的知覺等成分。他認為情緒是一種綜合性的行為反應(yīng),每種情緒都包括生理、行為和認知3種成分反應(yīng)。這3種成分在每種特定的情緒中各自起著不同的作用,相互作用、互為因果。它們的不同組合是構(gòu)成各種具體情緒模式的特定標志。
(4)動因-分化學說:Tomkins等人認為情緒是以身體為基礎(chǔ),對某些動因體系(Motivational system)所做的放大。動因-分化學說比認知學說更注重情緒的作用,情緒是認知發(fā)展的契機,人完全可以由各種情緒激動起來,以激起人去認知和行動。
(5)認知-生理學說:是詹姆斯-朗格情緒學說和認知學說的結(jié)合,認為個人對自己情緒狀態(tài)的認知性解釋是構(gòu)成情緒的主要因素,經(jīng)刺激所激活的生理變化是構(gòu)成情緒的次要因素,泛化的生理反應(yīng)決定情緒經(jīng)驗的強度,而情緒的性質(zhì)則由對情境的知覺所決定。
對情感定義的不唯一性,使得在情感的分類問題上也存在分歧。前期研究者認為對語音情感的研究就是找出一個基本的情感類型列表,然后再研究表中的情感是如何在人類語言交流時表現(xiàn)出來。由此發(fā)展出兩種情感分類觀點:基本情緒論(Basic emotion theory)和調(diào)色板情緒論(Palette theory of emtion)。前者認為存在一些情緒狀態(tài)是基本的純粹的,剩余情感則是次要的不單純的,這種觀點比較符合現(xiàn)代心理學認知,它將情感看成是由分立的基本情感組成,每種類型各有其獨特的體驗特性、生理喚醒模式和外顯模式;后者認為除去那些基本純粹的情緒狀態(tài)外,其他情感是在單純情感的基礎(chǔ)上衍變而來,就像調(diào)色板調(diào)色一樣。不同研究者提出的情感類型從2種到近百種不等,中國古代就對情感分成了7類,就是常說的七情六欲中的七情,在《禮記·禮運》中解釋為:“喜、怒、哀、懼、愛、惡、欲七者弗學而能”。而中醫(yī)沒有把“欲”列在七情之中,換為了“喜、怒、憂、思、悲、恐、驚”。西方一些研究者的情感類型情感類型列表如表1所示。
表1 基本情感分類列表Table 1 List of the basic emotion categories
近20年,在坐標空間中對情感定位成為另一個情感分類研究熱點,稱之為維度空間論,主要是集中在二維論和三維論中。二維論是指效價維/快樂維(Valence/hedonic tone)和激活維/喚醒維(Activation/arousal);三維論主要是在二維論的基礎(chǔ)上增加一個控制維/姿態(tài)維(Control/stance)。其中效價維主要體現(xiàn)為情感主體的情緒感受,表示情感的積極或消極程度,喜歡或不喜歡程度,正面或負面程度,話者借助情感要表達的就是他對人或事物的喜歡程度和積極或消極的態(tài)度;激活維是指與情感狀態(tài)相聯(lián)系的機體能量激活的程度,是對情緒的內(nèi)在能量的一種度量,表征個體對于各種活動的參與性,是活躍的還是呆板的,是興奮的還是冷淡的;控制維體現(xiàn)的是主體對情感狀態(tài)的主觀控制程度,用以區(qū)分情感狀態(tài)是由主體主觀發(fā)出的還是受客觀環(huán)境影響產(chǎn)生的,比如輕蔑和恐懼,就處于控制維度不同的兩端。
Russel等人通過激活效價空間上用一個情感輪(Emotion wheel)對情感進行分類[18],圖1所示的是情緒的二維模型。情感分布在一個圓形的結(jié)構(gòu)上,結(jié)構(gòu)的自然原點認為是一種具有各種情感因素的狀態(tài),但是由于這些情感因素在該點的強度太弱而得不到體現(xiàn)。通過向周圍不同方向擴展,表現(xiàn)為不同情感。情感點同原點的距離體現(xiàn)了情感強度。相似的情感相互靠近,相反的情感則在二維空間中相距180度。在這個二維空間中加入了強度做為第三個維度后,可以得到一個三維的情感空間模型。如圖2所示。以強度、相似性和兩極性劃分情緒,模型上方的圓形結(jié)構(gòu)劃分為8種基本情緒:狂喜、警惕、悲痛、驚奇、狂怒、恐懼、接受和憎恨,越鄰近的情緒性質(zhì)上越相似,距離越遠,差異越大,互為對頂角的兩個扇形中的情緒則是相互對立的。圓形結(jié)構(gòu)的中心為自然原點。在強度上延伸為三維椎體,強度越弱,情緒的興奮度越低,越消極,反之則興奮度越高越積極。
圖1 情緒的二維模型Fig.1 Two-dimensional emotion model
圖2 Plutchik三維情緒模型Fig.2 Plutchik′s three-dimensional emotion model
情感語音數(shù)據(jù)庫是進行語音情感分析的前提條件。根據(jù)數(shù)據(jù)獲取途徑,目前國際上語音情感研究人員所用的數(shù)據(jù)按照獲取途徑大致可分為4類:表演數(shù)據(jù)、激勵數(shù)據(jù)、啟發(fā)數(shù)據(jù)和摘引數(shù)據(jù)。按照語料自然度,數(shù)據(jù)可分為模仿數(shù)據(jù)、誘發(fā)數(shù)據(jù)和自然數(shù)據(jù)[19-30]。
表演數(shù)據(jù)主要是說話人用表演方式朗讀某條有情感要求的給定語句,同時進行錄音獲得數(shù)據(jù)。一般要求說話人是受過專業(yè)訓練的演員、播音員。這類數(shù)據(jù)的優(yōu)點是,在錄制的時候可以根據(jù)研究需求隨時調(diào)整數(shù)據(jù)的錄制,滿足性別、文字和情感等要求;而且錄音人員大多為受過表演訓練的演員,所錄語音具有明顯的情感表現(xiàn)力,在其后的數(shù)據(jù)有效性交叉測聽驗證時,具有較高的可識別性。同時,此類數(shù)據(jù)的缺點也是很明顯的,由于是由專業(yè)人士表演獲得的,數(shù)據(jù)的情感表現(xiàn)具有一定的夸張度,不同演員對度的把握也不盡相同,人們在日常交流中情感的正常流露與表演出的情感還是有一定距離的,當把根據(jù)表演數(shù)據(jù)得到的情感分析方法在用于日常交流的語音時,會出現(xiàn)一定偏差,不利于日后研究。
由于表演數(shù)據(jù)的真實度不高,情感的表達不受心理活動刺激,研究人員在進行錄制前,先設(shè)定一個有情感傾向的場景文本讓說話人朗讀,用文本的內(nèi)容來激勵說話人情感,通常情況下場景文本較長,說話人在朗讀的過程中,心理發(fā)上變化而使語音逐漸帶有情感。這種數(shù)據(jù)就稱之為激勵數(shù)據(jù)。有時場景文本也可由圖片影像等其他方式激勵說話人。其優(yōu)點是符合人類情緒產(chǎn)生的過程,能夠體現(xiàn)出情感的漸變性,真實度較高。其缺點是場景文本內(nèi)容的情感傾向可能會影響說話人對語音的判斷,而這些影響無法通過分析語音特征剔除。
啟發(fā)數(shù)據(jù)是通過多人之間的交流獲得的,通常是在一個自由的環(huán)境下,由一個或多個啟發(fā)者人員與被錄音人員進行交流,交流時間較長,談話過程中啟發(fā)人員通過對被錄音者的了解,隨時調(diào)整話題和控制交流速度,啟發(fā)出后者的情感。啟發(fā)過程中也可借助其他非語言類工具啟發(fā)被錄音人情感。較之前兩類數(shù)據(jù),啟發(fā)數(shù)據(jù)真實度較高,由于錄音時間較長,按照人類情緒發(fā)生過程,數(shù)據(jù)前期較為平穩(wěn),進入中期,話者逐步進入某種情緒狀態(tài)并最終到達情緒高潮,后期又逐漸歸于平靜狀態(tài)。但是此類數(shù)據(jù)也是對啟發(fā)人員要求較高,不僅要對被錄音人有一定程度的了解,能夠把握說話人的心理變化,而且需要很強的現(xiàn)場調(diào)控能力。啟發(fā)數(shù)據(jù)的另一個缺點就是由于被錄音人的個體差異性,實際錄音過程中,可能不會出現(xiàn)一些極端的情感,如暴怒、狂喜等。
摘引數(shù)據(jù)主要是指從廣播電視日常生活中截取我們感興趣的包含情感的語音片斷。這種方法的優(yōu)點是情感的真實度較之表演數(shù)據(jù)更高,情感表達直接由心理狀態(tài)觸發(fā)而成,有上下文內(nèi)容關(guān)聯(lián)信息;數(shù)據(jù)來源豐富,并且截取的多媒體素材中不僅僅是音頻信息,這對日后發(fā)展多模態(tài)情感識別研究提供幫助。但是由于數(shù)據(jù)的海量,尋找合適的數(shù)據(jù)需要花費大量的時間和人力,對存在背景音的語音材料還需進行分離預(yù)處理等步驟才能得到干凈的情感語句。另外,對某些數(shù)據(jù)來源可能還存在版權(quán)等法律問題,這些都是摘引數(shù)據(jù)的劣勢所在。
模仿數(shù)據(jù)是用專業(yè)的、蓄意的方式產(chǎn)生情緒的語音,一般由專業(yè)演員表演產(chǎn)生。而誘發(fā)數(shù)據(jù)是由于勸誘產(chǎn)生情緒的語音。誘發(fā)數(shù)據(jù)的自然度介于模仿數(shù)據(jù)和自然語音數(shù)據(jù)之間,一般是由非專業(yè)的普通人在文字,圖片等方式的誘導下獲得的。自然語音數(shù)據(jù)則直接取材于人們?nèi)粘=涣髦小?/p>
總的來說表演數(shù)據(jù)和部分激勵數(shù)據(jù)都是通過表演者模仿獲得的。真實性不高,但是在實驗室環(huán)境下,易于研究,有較高識別率。也是用的最多的建庫途徑。啟發(fā)數(shù)據(jù)的真實度較高,對啟發(fā)者要求較高,存在一定不可預(yù)知性,但是仍然獲得了部分研究者的認可。啟發(fā)數(shù)據(jù)和部分激勵數(shù)據(jù)屬于誘發(fā)獲得。摘引數(shù)據(jù)既有從影視劇中獲得的,也有從訪談日常談話中獲得的,因此,數(shù)據(jù)的自然度涵蓋范圍最大,但較之單純的表演數(shù)據(jù),由于有上下文的關(guān)聯(lián),情感表達上還是有一定優(yōu)勢。
不論是通過哪種途徑獲得情感語音數(shù)據(jù),建立一個完備的語音數(shù)據(jù)庫都是可持續(xù)研究的關(guān)鍵所在。完備性要求是指,要符合語言的概率模型,在保證文本真實性和話語自然度的前提下,用盡可能少的語句來覆蓋所有的漢語發(fā)音現(xiàn)象,即包含所有合理的音聯(lián)關(guān)系,包含各種音節(jié)內(nèi)和音節(jié)間的元輔音搭配關(guān)系,能體現(xiàn)協(xié)同發(fā)音現(xiàn)象及發(fā)音的韻律特征,能體現(xiàn)漢語語音學、聲學的各種特征。情感語音庫的完備性要求比較特殊,與其他的語音庫的完備性要求不盡相同。情感語音庫采集的是情感,要求每種情緒類別的語音數(shù)據(jù),包含該情緒的各種可能的情感表達方式。由于情感的表達受主觀因素影響較大,不同的談話人有不同的情感表達習慣。因此,保證說話人的數(shù)量達到一定的規(guī)模,選擇表演、激勵等各種不同的采集方式,設(shè)計充足的語句文本等,都有助于建立完備的情感語音庫。
情感語音當中可以提取多種聲學特征,用以反映說話人的情感行為的特點。情感特征的優(yōu)劣對情感最終識別效果的好壞有非常重要的影響,如何提取和選擇能有效反映情感變化的語音特征,是目前語音情感識別領(lǐng)域最重要的問題之一。在過去的幾十年里,針對語音信號中的何種特征能有效的體現(xiàn)情感,研究者從心理學、語音語言學等角度出發(fā),作了大量的研究。許多常見的語音參數(shù)都可以用來研究,這些語音參數(shù)也常用于自動語音識別和說話人識別當中。例如:短時能量、過零率、有聲段和無聲段之比、發(fā)音持續(xù)時間、語速、基音頻率、共振峰頻率和帶寬、鎂爾倒譜參數(shù)(Mel-frequency cepstral coefficients,MFCC)等等。
近年來,在情感特征的分析過程中,研究者們開始關(guān)注到語料的真實度問題,以前的表演語料具有一定的夸張成分,在此類語料上獲得的情感特征與實際情況可能存在一定的偏差。
在過去的情感特征分析中,存在的最大的問題是不同研究者之間的實驗結(jié)果具有較大的差別,由于語料庫的不統(tǒng)一,研究成果之間的可比性較差。往往在一個數(shù)據(jù)庫上行之有效的特征,遷移到另一組語料上就不能獲得同樣的性能。因此,在今后的研究中,應(yīng)該關(guān)注跨數(shù)據(jù)庫的擴展性能的研究,對不同民族之間和不同語種之間的情感表達的差異應(yīng)該受到研究者的重視。
此外,對于特殊人群和特殊工作環(huán)境中的情感特征的分析,具有較高的實際意義,應(yīng)當受到重視。例如,高壓環(huán)境下人員的情感和心理狀態(tài)變化,狹小密閉環(huán)境引發(fā)的負面情緒,這些都是值得研究的課題??梢灶A(yù)期,在實際環(huán)境中引發(fā)的情感狀態(tài),其特征應(yīng)該與標準數(shù)據(jù)庫當中的基本情感類別的特征有所不同。因此對實用語音情感特征的研究具有較高的實際意義。
用于識別和建模的特征向量一般有兩種構(gòu)造方法,靜態(tài)統(tǒng)計特征和短時動態(tài)特征。動態(tài)特征對音位信息的依賴性較強,為了建立與文本無關(guān)的情感識別系統(tǒng),本文中選用了靜態(tài)統(tǒng)計特征,如表2,3所示。
表2 情感語音的基本聲學特征構(gòu)造(上)Table 2 Construction of the basic acoustic features of speech emotion(A)
表3 情感語音的基本聲學特征構(gòu)造(下)Table 3 Construction of the basic acoustic features of speech emotion(B)
文本的變化會對情感特征有較大的影響。情感語音當中大致包含3種信息來源:說話人信息、語義信息和情感信息。在構(gòu)造情感特征和選擇特征時,不僅需要使得特征盡可能多地反映出情感信息,也就是隨著情感的變化而發(fā)生明顯的變化,而且還需要盡量保持特征不受到語義變化的影響。
上文提取了大量的基本聲學特征,由于受到訓練樣本規(guī)模的限制,特征空間維度不能過高。特征降維,在一個模式識別系統(tǒng)中具有重要的作用。原始的基本特征或多或少地能夠提供可利用的信息,來增加類別之間的可區(qū)分度。從信息的增加的角度來說,原始特征的數(shù)量應(yīng)該是越多越好,似乎不存在一個上限。然而,在具體的算法訓練當中,幾乎所有的算法都會受到計算能力的限制,特征數(shù)量的增加,最終會導致“維度災(zāi)難”的問題。以高斯混合模型為例,它的概率模型的成功訓練依賴于訓練樣本數(shù)量、高斯模型混合度、特征空間維數(shù)三者之間的平衡。如果訓練樣本不足,而特征空間維數(shù)過高的話,高斯混合模型的參數(shù)就不能準確地獲得。
本文對上文中列出的所有基本聲學特征進行特征降維,既能夠反映出這些特征在區(qū)分情感類別上的能力,又是后續(xù)的識別算法研究的需要??偨Y(jié)語音情感識別領(lǐng)域近年來的一些文獻,研究者們主要采用了以下的一些特征降維的方法:線性鑒別分析(Linear discriminant analysis,LDA)、主成分分析(Principal components analysis,PCA)、Fisher鑒別率(Fisher discriminant ratio,F(xiàn)DR)、序列前向選擇(Sequential forward selection,SFS)等。其中,SFS是一種封裝器方法(Wrapper),它對具體的識別算法依賴程度比較高,當使用不同的識別算法時,可能會得到差異很大的結(jié)果。
在特征維數(shù)較高時,LDA的壓縮性能是非常明顯的。然而在實際中LDA的應(yīng)用會受到訓練數(shù)據(jù)量的限制,當原始特征維數(shù)非常高,而訓練數(shù)據(jù)量不足時,會導致矩陣出現(xiàn)奇異值,LDA無法正常使用。因此,在本文中處理高維數(shù)據(jù)時,可以采用PCA進行第一步降維,然后再使用LDA降維。
語音情感識別在人機自然交互領(lǐng)域中有著重要的應(yīng)用前景。在不久的將來,智能家用電器、智能服務(wù)型機器人等智能工具要進入到人們的日常生活中,必然要面臨的問題是人與機器如何交互的問題。在以個人為中心的服務(wù)中,包括個人電腦等消費電子,普通大眾并不習慣于鍵盤、鼠標等生硬的操作方式,而語音是人類最自然、最便捷的交流方式之一,以語音、表情、手勢等自然的方式與機器溝通已成為了人機交互研究領(lǐng)域的一個趨勢。使智能機器具有理解人類情感的能力,識別用戶的喜悅、煩躁、滿意、憤怒、急切等情感,具有重要的實際意義。通過語音情感識別,在人機語音通信中獲取情感等非語義信息,能夠使得智能機器具備“察言觀色”的能力,能夠適應(yīng)各種實際的社會場合,準確地理解用戶的意圖,自然地與用戶進行溝通。
語音情感識別是以情感機理研究為基礎(chǔ)、在獲取了有效的情感語音信號后,將情感信號與情感機理相應(yīng)方面的內(nèi)容對應(yīng)起來,對所獲得的信號進行建模和識別。情感機理研究主要指對情感狀態(tài)判定及其與生理和行為之間的關(guān)系。涉及到心理學、生理學、認知科學等方面學科。情感信號的獲取研究主要是指各類有效傳感器的研制,它是情感計算中極為重要的環(huán)節(jié),這里主要是各類高性能的錄音儀器。通過對錄得的語音信號進行交叉驗證其有效性后,對信號進行建模和識別。例如,隱馬爾可夫模型(Hidden Markov models,HMM)、貝葉斯等模型就被廣泛采用并加以改進,取得了一定的識別效果[31-41]。
這里簡要總結(jié)了各種現(xiàn)有的語音情感信息的統(tǒng)計模型與識別算法,如表4所示。模式識別領(lǐng)域中的諸多算法都曾用于語音情感識別的研究,典型的有 HMM、高斯混合模型(Gaussian mixture model,GMM)、支持向量機(Support vector machine,SVM)和人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)等,表4中初步比較了它們各自的優(yōu)缺點以及在部分數(shù)據(jù)庫上的識別性能。
GMM是一種擬合能力很強的統(tǒng)計建模工具。GMM的主要優(yōu)勢在于對數(shù)據(jù)的建模能力強,理論上來說,它可以擬合任何一種概率分布函數(shù)。而GMM的主要缺點,也正是對數(shù)據(jù)的依賴性過高。因此在采用GMM建立的語音情感識別系統(tǒng)中,訓練數(shù)據(jù)的特性會對系統(tǒng)性能產(chǎn)生很大的影響。
GMM在說話人識別和語種識別中獲得了成功的應(yīng)用。就目前來說,很多研究的結(jié)果顯示,GMM在語音情感識別中是一種較合適的建模算法。近年來的研究文獻中,報道了不少采用GMM建立的語音情感識別系統(tǒng)。這些基于GMM的識別系統(tǒng),相對于其他識別算法來說獲得了較好的識別率。在2009年,語音領(lǐng)域的著名的國際會議(Interspeech)上,舉行語音情感識別的評比。基于GMM的識別系統(tǒng)在總體性能上獲得了該次比賽的第一。
表4 各種識別算法在語音情感識別應(yīng)用中的特性比較Table 4 Comparison of the characters of various recognition algorithms in speech emotion recognition
采用何種建模算法最適合語音情感識別,一直是研究者們非常關(guān)注的問題。本文認為,在不同的情感數(shù)據(jù)庫上、不同的測試環(huán)境中,不同的識別算法各有優(yōu)劣,對此不能一概而論。然而,目前研究者們對自然語料非常重視,在自然語料中的情感模式較為復(fù)雜,不同的說話人、不同的性格特點、不同的上下文環(huán)境等等因素都會增加數(shù)據(jù)的復(fù)雜度。高斯混合模型對這些數(shù)據(jù)的適應(yīng)能力較強,可能是多數(shù)應(yīng)用場合的一種合理選擇。
在模式識別方面,各國研究人員在語音情感信息處理領(lǐng)域幾乎利用了所有的模式識別手段,新方法的應(yīng)用和對比層出不窮。模式識別方法大致可分為3大類:模板匹配法、概率統(tǒng)計法、辨別分類器法。其中模板匹配法代表性的有動態(tài)時間規(guī)整法(Dynamic time warping,DTW)和矢量量化方法兩種;概率統(tǒng)計法代表性的有HMM方法和GMM方法兩種;辨別分類器法如ANN方法和SVM方法。此外,把以上方法與不同特征進行有機組合,即混合方法也是情感識別中常見的,如GMM/SVM混合模型方法、SVM/HMM混合模型方法等等[36-40]。
Yamada等[42]對將神經(jīng)網(wǎng)絡(luò)應(yīng)用于提取語音中的情感進行了研究,這些情感包括悲傷、興奮、歡樂和憤怒。對于這些基本的人類情感,運用神經(jīng)網(wǎng)絡(luò)可以達到70%的識別率。Nicholson所研究的系統(tǒng)的整個神經(jīng)網(wǎng)絡(luò)由8個子網(wǎng)構(gòu)成,每個子網(wǎng)處理一種特定的情感。測試發(fā)現(xiàn),負面的情感,比如憤怒和悲傷容易識別,但正面的情感,比如喜悅,不易識別。Tato[33]等人使用SVM作為分類器對四類(喜、怒、悲、平常)情感進行識別研究,最后實現(xiàn)了73%的平均識別率。Tin Lay Nwe等[43]采用了Mel頻率(Mel-frequency)語音能量系數(shù)和HMM分類方法,這種方法能夠比較有效地識別出語音所包含的情感,但還不足以反映情感的細節(jié),對情感進行精確的區(qū)分。趙力等[44-47]分別采用PCA,HMM,GMM,QDF等方法進行識別,也取得了70%~90%的識別率。
目前基于語音的情感識別系統(tǒng)中還存在不少困難,離實際應(yīng)用的要求還有一定的距離。用于識別語音情感的機器學習算法通常需要大量的訓練數(shù)據(jù)。在相對成熟的語種識別或說話人識別領(lǐng)域內(nèi),訓練一個正常工作的系統(tǒng)通常需要幾百個小時的語音數(shù)據(jù)。標注后的語音情感訓練數(shù)據(jù)是稀疏的,這對情感識別研究帶來了難題。目前的情感識別研究缺乏足夠的標注好的自然情感語音數(shù)據(jù)。另一方面,表演語音相對容易獲取,但是用表演語音數(shù)據(jù)代替自然語音數(shù)據(jù)會帶來系統(tǒng)性能的下降,研究表明表演情感數(shù)據(jù)與真實的情感數(shù)據(jù)之間有著較大的差異。然而現(xiàn)實世界中的情感在某種程度上也是在各種因素的影響下表達的,在不同的社會環(huán)境下都會帶有一定程度的掩飾和表演的成分。采集充分多的自然情感語音數(shù)據(jù)具有一定的困難,大部分的真實情感出現(xiàn)在特定的社交場合,在自然對話中出現(xiàn)的情感會受到觀察者的影響,在實驗室里很難進行完全真實的重現(xiàn)。當人們獲知他們的對話在被采集和錄制時,情感的表達會受到一定程度的抑制。例如,在Ekman的研究中,日本人會在參與實驗中用微笑來掩蓋負面的情緒。對語音情感來說,說話本身是一個受到高度控制和約束的過程,不少受控較少的情感表達需要一些極端的事件來激發(fā),在進行情感語音的采集過程中倫理道德也是不可忽視的因素,被試往往出于隱私的考慮而不會給出最真實的情感表達。
當獲得了自然的語音情感數(shù)據(jù)后,下一步就需要來描述語音中出現(xiàn)的這些情感。對自然情感的標注是一件困難的工作,特別是在上下文場景未知的情況下要準確地判斷出說話人的情感更加困難。而且對情感的表達和感知某種程度上是因人而異的,不同的人對情感的表達能力不同,對同一段情感語料也存在不同的感受。因此不得不采用大多數(shù)人投票的方案來進行情感的標注,當多人對一段語料有相同的標注時將其作為基準。對于同一個標注人,還需要考慮其給出的判斷的可靠程度。對語音情感數(shù)據(jù)的預(yù)處理是一個需要大量人力和時間的過程。
以往的研究表明,聲學特征對區(qū)分不同的情感類別有重要的作用。激活維上差異較大的情感,如憤怒(高激活度)和悲傷(低激活度),通過聲學特征能夠得到較好的區(qū)分。然而在愉悅維度上對喜悅和憤怒的區(qū)分則較為困難。雖然近年來大量的音質(zhì)特征被用來區(qū)分正面和負面的情感,然而離實際應(yīng)用的要求還有一定的距離。因此,在語音情感特征分析中,盡可能多地提取聲學特征,用特征選擇算法來選取區(qū)分性最高的特征。與自動語音識別和人臉表情識別領(lǐng)域不同,尋找一套有效的聲學特征以及配套的識別算法的研究還沒有得到一個統(tǒng)一的結(jié)論,目前廣泛使用的語音情感特征和識別算法,還不能很好地捕獲自然語音中的不明顯的情感表達。而對于表演語音的情感區(qū)分性能較高,是由于表演語音情感較為強烈,在激活度上的差異較大。
雖然世界各國的研究人員在語音情感研究的領(lǐng)域取得了許多研究成果,但是整個語音情感信息處理領(lǐng)域還處在一個較低的水平。特征提取的手段極其局限,對于模式識別的手段,雖然有不同的應(yīng)用方法,但是由于研究項目中使用的數(shù)據(jù)各異,而使得這些文獻間類比的可能性不大??v觀近幾年語音情感文獻的研究結(jié)果,不僅它們的語音數(shù)據(jù)庫不同,而且不同識別算法的應(yīng)用也造成了高低不等的識別率。
在語音情感信息處理領(lǐng)域,無論是特征的提取,還是模式的識別,都存在相當多的問題。總結(jié)起來有如下幾類:
(1)目前國內(nèi)外對情感識別的研究,主要集中在幾類基本情感的識別上,尚不能滿足實際應(yīng)用中的需求,缺乏實用語音情感的數(shù)據(jù)庫以及在此基礎(chǔ)上的特征分析與識別的研究。
(2)沒有一個統(tǒng)一的共享的情感數(shù)據(jù)庫用于語音情感識別,由于研究項目中使用的數(shù)據(jù)各異,而使得各類研究文獻間類比的可能性不大。而且由于語種的關(guān)系,不同語種之間的研究成果的交流也存在一定障礙。
(3)在情感特征參數(shù)的提取和選擇上,特征提取的手段極其局限,幾乎所有的研究人員都是采用韻律特征或者這些韻律特征的線性組合和變換作為研究對象。雖然少數(shù)研究人員也提出了一些新的特征參數(shù),但是所有這些成果目前還停留在研究階段,對其的廣泛認可仍需時間。
(4)情感識別算法的使用上,縱觀近幾年語音情感文獻的研究結(jié)果,由于語音數(shù)據(jù)庫不同,使得不同識別算法的應(yīng)用造成了高低不等的識別率。對某些算法的有效性上仍存在驗證問題。
語音情感識別是實現(xiàn)以人為中心的自然人機交互的關(guān)鍵技術(shù)之一,近年來受到了來自計算機科學、心理學、認知科學與行為科學等各個領(lǐng)域的研究者們越來越高的關(guān)注。情感狀態(tài)的識別與在此基礎(chǔ)上的心理評估具有很高的實際應(yīng)用價值,特別是在載人航天等軍事領(lǐng)域中,長時間的、單調(diào)的、高強度的任務(wù),會使得相關(guān)人員面臨嚴酷的生理以及心理考驗,引發(fā)某些負面的情緒。探討這些情緒對工作能力的作用及其機制和影響因素,具有非常重要的應(yīng)用價值,可以研究提高個體認知和工作效率的方法、避免影響認知和工作能力的因素。然而以往的語音情感識別,集中在對幾種基本情感的研究上,實驗手段上往往采取表演的方式來模仿實際環(huán)境中的真實情感。通過對基本的幾類語音情感的分類研究,雖然能夠在理論上驗證各種識別算法的優(yōu)劣性能,能夠用于尋找對識別基本情感類別有效的聲學特征,但是僅停留在對基本情感類別的研究上,遠遠不能滿足實際應(yīng)用中的要求。
人員的心理素質(zhì)(如情緒穩(wěn)定等)是實際任務(wù)中儀器和裝備所無法替代的關(guān)鍵因素,直接關(guān)系到航空航天等任務(wù)的順利完成。要保持良好的情緒狀態(tài),除了進行專業(yè)的心理訓練、任務(wù)執(zhí)行過程中的心理干預(yù)以外,配套的情緒檢測儀器的研制是必要的硬件基礎(chǔ),是對情緒評價提供客觀指標的依據(jù)。因此實時地在線情緒狀態(tài)評估,以及在此基礎(chǔ)上的情緒能力的考核,具有非常重要的實用意義。然而目前國內(nèi)外對情感識別的研究,主要集中在幾類基本情感的識別上,尚不能滿足實際應(yīng)用中的需求。由于實際應(yīng)用中的需求,語音通話中“煩躁”情感具有重要的研究價值。因此,對煩躁情感的識別是語音情感識別中非常重要的一項研究內(nèi)容,具有重大的實際意義。
在實際的語音情感識別應(yīng)用中,還面臨著情感語料真實度的問題。根據(jù)Scherer的觀點,人類聲音中蘊含的情感信息,受到無意識的心理狀態(tài)變化的影響,以及社會文化導致的有意識的說話習慣的控制。語音情感中的這種無意識和有意識控制對情感識別在實際中的應(yīng)用至關(guān)重要。然而在目前的語音情感數(shù)據(jù)的采集中,廣泛使用的是表演的方式,在實際的語音通話和自然交談中,說話人的情感對語音產(chǎn)生的影響,常常不受說話人控制,通常也不服務(wù)于有意識的交流目的,而是反映了說話人潛在的心理狀態(tài)的變化。相反,演員能通過刻意地控制聲音的變化來表演所需要的情感,這樣采集的情感數(shù)據(jù)對于情感語音的合成研究沒有問題,但是對自然情感語音的識別研究不合適,因為表演數(shù)據(jù)不能提供一個準確的情感模型。為了能更好地研究實際環(huán)境中的情感語音,有必要采集除表演語音以外的、較高自然度的情感數(shù)據(jù)。根據(jù)自然程度和采集方法,情感語料可以分為自然語音、誘發(fā)語音和表演語音3類。表演語料的優(yōu)點是容易采集,缺點是情感表現(xiàn)夸張,與實際的自然語音有一定的差別,因此導致表演數(shù)據(jù)的可靠性較差?;诒硌萸楦姓Z料建立情感識別系統(tǒng),會帶入一些先天的缺陷,這是由于用于識別模型訓練的數(shù)據(jù)與實際的數(shù)據(jù)有一定的差別,導致了提取的情感特征上的差別。因此,以往基于表演語料的識別系統(tǒng),它的情感模型在實驗室條件下符合樣本數(shù)據(jù),在實驗測試中也能獲得較高的識別率;但是在實際條件下,系統(tǒng)的情感模型與真實的情感數(shù)據(jù)不能符合得很好,導致了識別正確率的顯著下降。因此需要通過心理學實驗的方法來采集實用語音情感的誘發(fā)數(shù)據(jù),盡可能地使訓練數(shù)據(jù)接近真實的情感數(shù)據(jù)。
實用語音情感數(shù)據(jù)庫的建立,是實用語音情感的研究基礎(chǔ),具有極為重要的意義。目前國際上流行的語音情感數(shù)據(jù)庫有丹麥語數(shù)據(jù)庫、柏林數(shù)據(jù)庫、Groningen ELRA數(shù)據(jù)庫、Reading-leeds數(shù)據(jù)庫、ESP數(shù)據(jù)庫和Amir數(shù)據(jù)庫等,中文語音情感數(shù)據(jù)庫有中國科學院自動化所的CASIA語料庫、中國社會科學院錄制的CASS-ESC等數(shù)據(jù)庫。然而現(xiàn)有的這些語音情感數(shù)據(jù)庫主要通過表演的方式采集幾類基本情感類別的語音數(shù)據(jù),不能滿足實用語音情感研究需要。在語音情感識別的實際應(yīng)用中,對建立情感模型所用的情感數(shù)據(jù)的真實性要求特別高,以往基于表演數(shù)據(jù)訓練得到的模型,雖然在實驗室條件下能夠通過識別測試,但是在實際環(huán)境中對真實情感數(shù)據(jù)的識別性能較差。面向?qū)嶋H應(yīng)用的這一特點,決定了實用語音情感數(shù)據(jù)庫必須要保證語料的真實性,而不能采用傳統(tǒng)的表演方式采集數(shù)據(jù)。針對這一問題,通過實驗心理學的手段,在計算機游戲創(chuàng)造出的虛擬的情景中誘發(fā)被試說出帶有特定情感的話語,能夠采集較高自然度的情感數(shù)據(jù)。
在實用語音情感的特征分析中關(guān)注最多的是韻律特征和音質(zhì)特征。心理學和語言心理學的研究人員提供了大量的關(guān)于語音學和韻律學的研究結(jié)果,可以用來提取特征。一般情況下,語音的情感相關(guān)性的表示形式可以通過說話人模型或者聲學模型來實現(xiàn)。有研究者認為語音情感識別的重點在韻律特征;而隨著研究的深入,另外一些研究者認為,語音特征和韻律特征相互結(jié)合才能表達情感,僅有韻律特征是不可能表達情感的。到目前為止,已有的研究成果表明,針對情感識別所采用的特征大多是韻律特征,也就是超音段特征,如基音、強度、持續(xù)時間、以及它們的衍生參數(shù),主要是統(tǒng)計參數(shù),如均值、方差、中值、最大最小值、輪廓變化等。語音音質(zhì)聽覺方面的信息也是常常需要考慮的因素。一些特定元音在結(jié)構(gòu)上的變化直接依賴于情感,而另一些元音則依賴于句子中的位置及話者是否用錯了重讀模式。音質(zhì)類特征中代表性的有:共振峰,MFCC,LPCC,PLP等。韻律特征和音質(zhì)特征并不是相互孤立的,它們與前文中所提到的情感維度空間定義是密切相連的。通過Pereira等人的研究表明語音信號的韻律特征與3個情感維度(效價維、激活維和控制維)之間具有一定關(guān)聯(lián)性,其中激活維和韻律特征之間具有明顯關(guān)聯(lián),激活維相近的情感狀態(tài)具有相似的韻律特征且易混淆。
到目前為止,對情感特征參數(shù)的有效提取主要集中在韻律和音質(zhì)方面,其中以韻律特征為主,而隨著研究的深入,越來越多的音質(zhì)參數(shù)也被納入考慮范圍內(nèi)。前面所提到的特征大多是線性特征,而近幾年來各種非線性特征逐漸引起人們重視,其代表性的如TEO能量算子。而針對不同民族不同語種對情感表達影響的研究則鮮少見到。此外,由于工作環(huán)境的變化,而造成人們不同以往的情緒表達特征的變化也是值得關(guān)注的地方。
今后的研究工作可能在情感模型和情感特征方面有較大的發(fā)展空間。首先,情感維度空間模型在語音情感識別中的應(yīng)用還剛剛開始,諸多算法可以與之結(jié)合,出現(xiàn)更為合理的情感識別方法。雖然心理學中的“喚醒度-效價度-控制度”三維模型比較流行,但是可以從語音信號的實際特點出發(fā)研究更加合適的情感模型。其次,情感特征還有待進一步研究,從聲學特征到心理狀態(tài)的映射是非常困難的,如何構(gòu)造可靠的情感特征一直是本領(lǐng)域的一個主題。特別是結(jié)合跨語言和跨數(shù)據(jù)庫的研究,有利于發(fā)掘情感特征中的通用性。
雖然情感計算的研究已經(jīng)進行了多年,然而情感的科學定義還并不明確。情感可以從進化論得到解釋,認為情感是動物在生存斗爭中獲得的能力,使得動物能夠趨利避害。情感還可以從社會心理學的角度得到解釋,人類作為群居動物,成員個體之間需要進行有效的溝通,為勞動協(xié)作建立關(guān)系,而情感則是一種有效的交流手段,體現(xiàn)出個體的意圖和心理狀態(tài)。從這個角度來看,人工智能是不可缺少的情感識別技術(shù),它能夠進行復(fù)雜意圖信息的直接表達和有效傳遞。
人類語音當中包含的豐富多彩的情感信息,計算機能夠理解到何種程度?語音情感識別技術(shù)是僅能夠模仿一部分的人類情感感知能力,還是有可能超越人類的能力,捕獲到人耳亦所無法感知的信息?這些問題值得深思。
從情感的含義上看,既然只有人類和動物才具有情感,那么人類的情感也就通過人類自身得到了界定,人耳所不能感知到的信息,似乎不在語音情感的范疇內(nèi)。然而,情感的感知通道,并不僅限于人耳聽覺。通過內(nèi)省知覺的方式,說話人自身能夠體驗到的情感是“體驗情感”(Felt emotion),通過人耳聽覺感知到的他人的情感,是“聽辨情感”(Perceived emotion)。從這個角度考慮,語音情感識別技術(shù),有可能超過人耳的聽辨能力,獲取到更多的說話人的體驗情感的信息。人們在日常生活和工作中無意識地流露出的情感心理狀態(tài),能夠通過情感計算技術(shù)得到準確的測量和分析,在此基礎(chǔ)上發(fā)展出的技術(shù)應(yīng)用有著廣闊的前景。
煩躁情感具有特殊的應(yīng)用背景,在某些嚴酷的工作環(huán)境中,煩躁是較為常見的、威脅性較大的一種負面情感。保障工作人員的心理狀態(tài)健康是非常重要的環(huán)節(jié)。本文中設(shè)想在未來可能的長期的載人任務(wù)中,對航天員情感和心理狀態(tài)的監(jiān)控與干預(yù)是一個重要的研究課題。在某些特殊的實際應(yīng)用項目中,工作人員的心理素質(zhì)是選拔和訓練的一個關(guān)鍵環(huán)節(jié),這是由于特殊的環(huán)境中會出現(xiàn)諸多的刺激因素,引發(fā)負面的心理狀態(tài)。例如,狹小隔絕的艙體內(nèi)環(huán)境、嚴重的環(huán)境噪聲、長時間的睡眠剝奪等因素,都會增加工作人員的心理壓力,進而影響任務(wù)的順利完成。因此,本文設(shè)想在天地的通信過程中,有必要對航天員的心理健康狀況進行檢測,在發(fā)現(xiàn)潛在的負面情緒威脅的情況下,應(yīng)該及時地進行心理干預(yù)和疏導。在心理學領(lǐng)域,進行心理狀態(tài)評估的方法,主要是依靠專業(yè)心理醫(yī)師的觀察和診斷,而近年來的情感計算技術(shù),則為這個領(lǐng)域提供了客觀測量的可能。本文設(shè)想,語音情感識別技術(shù)可以用于分析載人航天任務(wù)中的語音通話,對說話人的情感狀態(tài)進行自動的、實時的監(jiān)測。一旦發(fā)現(xiàn)煩躁狀態(tài)出現(xiàn)的跡象,可以及時地進行心理疏導。
[1] Picard R W.Affective computing[M].Cambridge:MIT Press,1997.
[2] 趙力.語音信號處理[M].北京:機械工業(yè)出版社,2003.
Zhao Li.Speech signal processing[M].Beijing:Machinery Industry Press,2003.
[3] Picard R W.Toward computers that recognize and respond to user emotion[J].IBM Technical Journal,2000,38(2):705-719.
[4] Scherer K R,Banziger T.Emotional expression in prosody:A review and an agenda for future research[C]∥SP2004(Speech Prosody 2004).Nara,Japan:International Speech Communication Association,2004:355-369.
[5] 趙力,王治平,盧韋,等.全局和時序結(jié)構(gòu)特征并用的語音信號情感特征識別方法[J].自動化學報,2004,30(3):423-429.
Zhao Li,Wang Zhiping,Lu Wei,et al.Speech emotional recognition using global and time sequence structure feature[J].Acta Automatica Sinica,2004,30(3):423-429.
[6] 王治平,趙力,鄒采榮.基于基音參數(shù)規(guī)整及統(tǒng)計分布模型距離的語音情感識別[J].聲學學報,2006,31(1):28-34.
Wang Zhiping,Zhao Li,Zou Cairong.Emotional speech recognition based on modified parameter and distance of statistical model of pitch [J].Acta Acustica,2006,31(1):28-34.
[7] Arnold M.Emotion and personality[J].Psychological Aspects,1960,1:11-116.
[8] Tomkins A S S.The negative affects[J].Affect,Imagery,Consciousness,1962,2:111-116.
[9] Murray I,Amott J L.Towards the simulation of emotion in synthetic speech:A review of the literature on human vocal emotion[J].Journal of the Acoustic Society of America,1993,93(2):1097-1108.
[10]Ortony A,Turner T J.What′s basic about basic emotions[J].Psychological Review,1990,97(3):315-331.
[11]Stibbard R M.Vocal expression of emotions in monlaboratory speech:An investigation of the reading/leeds emotion in speech porject annotation data[D].UK:University of Reading,2001.
[12]Cowie R,Cornelius R R.Describing the emotional states that are expressed in speech[J].Speech Communication,2003,40:5-32.
[13]Taylor G,F(xiàn)ellenz W A,Cowie R,et al.Towards a neural-based theory of emotional dispositions[C]∥IMACS/IEEE CSCC.Athens,Greece:IEEE Computer Society,1999:1-6.
[14]Plutchik R.The multifactor-analytic theory of emotion[J].Journal of Psychology,1960,50(1):153-171.
[15]Ververidis D,Kotropoulos C.A state of the artreview one motional speech databases[C]∥Proc 1st Richmedia Conference. Lausanne, Switzerland:IEEE Computer Society,2003:109-119.
[16]Douglas-Cowie E,Campbell N,Cowie R,et al.E-motional speech:Towards a new generation of databases[J].Speech Communication,2003,40:33-60.
[17]Ververidis D,Kotropoulos C.Emotional speech recognition:Resources,features,and methods[J].Speech Communication,2006,48:1162-1181.
[18]Russell J A.Measures of emotion[M].San Diego,CA,US:Academic Press,1989.
[19]Cowie R,Douglas-Cowie E.Automatic statistical analysis of the signal and prosodic signs of emotion in speech[C]∥Proc ICSLP.Philadelphia,PA,USA:IEEE Signal Processing Society,1996:1989-1992.
[20]Edgington M.Investigating the limitations of concatenative synthesis[C]∥Proc Eurospeech Rhodes.Greece:IEEE Signal Processing Society,1997:593-596.
[21]Fernandez R,Picard R W.Modeling drivers′speech under stress[J].Speech Communication,2003,40(1):145-159.
[22]Fischer K.Annotating emotional language data[R].Tech.Rep.236.Germany:University of Hamburg,1999:111-116.
[23]Yu F,Chang E,Xu Y-Q,et al.Emotion detection from speech to enrich multimedia content[C]∥Proc 2nd IEEE Pacific-Rim Conference on Multimedia.Shanghai,China:IEEE Signal Processing Society,2001:1-6.
[24]Nakatsu R,Solomides A,Tosa N.Emotion recognition and its application to computer agents with spontaneous interactive capabilities[C]∥Proc IEEE Int Conf Multimedia Computing and Systems.Floernce,Italy:IEEE Signal Processing Society,1999:804-808.
[25]Iida A,Campbell N,Iga S,et al.A speech synthesis system with emotion for assisting communication[C]∥Proc ISCA Workshop(ITRW)on Speech and E-motion.Belfast:IEEE Signal Processing Society,2000:167-172.
[26]Rosenberg A E,Lee C-H,Soong F K.Sub-word unit talker verification using hidden markov models[C]∥Proc ICASSP90.New Mexico,USA:IEEE Signal Processing Society,1990:269-272.
[27]Chasaide A N,Gobl C.Voice quality and the synthesis of affect[J].Improvements in Speech Synthesis,2002,25(8):252-263.
[28]Gobl C,Chasaide A N.Testing affeetive correlates of voice quality through analysis and resynthesis[C]∥ISCA Workshop on Speech & Emotion.Northern Ireland:IEEE Signal Processing Society,2000:1-6.
[29]Kwon O W,Chan K,Hao J,et al.Emotion recognition by speech signals[C]∥Proc of Eurospeech.Geneva,Switzerland:IEEE Signal Processing Society,2003:125-128.
[30]Jianxia C.A summary about emotional speech recognition[C]∥The 1st Chinese Conference on Affective Computing and Intelligent Interaction.Beijing:IEEE Signal Processing Society,2003:11-116.
[31]Tank A E,Kotz S.Accentuation and emotions-two different systems[C]∥ISCA Workshop(ITRW)on Speech and Emotion.Newcastle,Northern Ireland:IEEE Signal Processing Society,2000:1-6.
[32]Gobl C,Chasaide A N.The role of voice quality in communicating emotion, mood and attitude[J].Speech Communication,2003,40(1):189-212.
[33]Tato R,Santos R,Kompe R,et al.Emotion space improves emotion recognition[C]∥Proc ICSLP 2002.Denver,Colorado:IEEE Signal Processing Society,2002:2029-2032.
[34]Pao Tsang-Long,Chen Yu-Te,Yeh Jun-Heng,et al.Detecting emotions in mandarin speech[J].Computational Linguistics and Chinese Language Processing,2005,10(3):347-362.
[35]Ververidis D,Kotropoulos C,Pass J.Automatic emotional speech classification[C]∥Proceedings of ICASSP.Montreal,Quebec,Canada:IEEE Signal Processing Society,2004:593-596.
[36]Jiang Dan-Ning,Cat Lian-Hong.Speech emotion classificaiton with the combination of statistic features and temporal features[C]∥IEEE Intenraitonal Conference on Multimedia and Expo.Taiwan,China:IEEE Computer Society,2004:1967-1970.
[37]Audibert N,Auberg V,Rilliard A.Acted vs.spontaneous expressive speech:Perception with inter-individual variability[C]∥Proc LREC.Marrakech,Morocco:IEEE Computer Society,2008:111-116.
[38]Batliner A,Steidl S,Nth E.Releasing a thoroughly annotated and processed spontaneous emotional database:The FAU aibo emotion corpus[C]∥Proc of a Satellite Workshop of LREC.Berlin,Germany:IEEE Computer Society,2008:28-31.
[39]Brummer N.Discriminative acoustic language recognition via channel-compensated GMM statistics[C]∥ISCA Proc Interspeech.Denver,USA:ISCA,2009:1-6.
[40]Busso C,Narayanan S S.Recording audiovisual emotional databases from actors:A closer look[C]∥Second International Workshop on Emotion:Corpora for Research on Emotion and Affect,International Conference on Language Resources and Evaluation.Amsterdam, Netherland:IEEE Computer Society,2008:17-22.
[41]Krajewski J,Kroger B.Using prosodic and spectral characteristics for sleepiness detection[C]∥10th European Conference on Speech Communication and Technology.Geneva,Switzerland:IEEE Computer Society,2007:1841-1844.
[42]Yamada T,Hashimoto H,Tosa N.Pattern recognition of emotion with neural network[C]∥Industrial Electronics,Control,and Instrumentation,Proceedings of the 1995IEEE IECON 21st International Conference on.New York,USA:IEEE,1995,1:183-187.
[43]Nwe T L,F(xiàn)oo S W,De Silva L C.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603-623.
[44]趙力,錢向民,鄒采榮,等.語音信號中的情感識別研究[J].軟件學報,2001,12(7):1050-1055.
Zhao Li,Qian Xiangmin,Zou Cairong.A study on emotional recognition in speech signal[J].Journal of Software,2001,12(7):1050-1055.
[45]趙力,將春輝,鄒采榮,等.語音信號中的情感特征分析和識別的研究[J].電子學報,2004,32(4):606-609.
Zhao Li,Jiang Chunhui,Zou Cairong.A study on emotional feature analysis and recognition in speech[J].Acta Electronica Sinica,2004,32(4):606-609.
[46]王治平,趙力,鄒采榮.利用模糊熵進行參數(shù)有效性分析的語音情感識別[J].電路與系統(tǒng)學報,2003,3(8):109-112.
Wang Zhiping,Zhao Li,Zou Cairong.Emotion recognition of speech using fuzzy entropy effectiveness analysis[J].Journal of Circuits and Systems,2003,3(8):109-112.
[47]黃程韋,金赟,趙艷,等.實用語音情感數(shù)據(jù)庫的設(shè)計與研究[J].聲學技術(shù),2010,29(4):396-399.
Huang Chengwei,Jin Yun,Zhao Yan,et al.Design and establishment of practical speech emotion database[J].Technical Acoustics,2010,29(4):396-399.