趙慧娟 辛麗華
摘要 隨著人機(jī)交互對(duì)智能化、個(gè)性化以及和諧化需求的不斷提升,情感因素在交互中扮演著越來(lái)越重要的角色。情感計(jì)算包含情感識(shí)別、情感表達(dá)以及情感交互等,情感識(shí)別是情感表達(dá)和情感交互的基礎(chǔ),情感變化的識(shí)別是情感識(shí)別的擴(kuò)展和延伸,是研究情感調(diào)適的基礎(chǔ)。本文從情感變化的概念和衡量方法出發(fā),對(duì)情感變化檢測(cè)的主要研究思路和研究方法以及異常情感變化的識(shí)別進(jìn)行了研究和歸納,并對(duì)情感變化研究的應(yīng)用場(chǎng)景進(jìn)行了總結(jié)和展望。
【關(guān)鍵詞】語(yǔ)音情感識(shí)別 情感變化 情感狀態(tài)轉(zhuǎn)移 異常情感檢測(cè)
1 引言
情感計(jì)算(Affective Computing)的概念由美國(guó)MIT媒體實(shí)驗(yàn)室的R.Picard于1995年提出,并于1997年正式出版專(zhuān)著“AffectiveC omputing(情感計(jì)算)”。在書(shū)中她定“隋感計(jì)算是于情感相關(guān)、來(lái)源于情感或能對(duì)情感施加影響的計(jì)算”。情感計(jì)算研究人們的情感,包含情感的識(shí)別,情感的表達(dá)以及與具體應(yīng)用情感的結(jié)合,在人機(jī)交互領(lǐng)域有著重要的意義,比如對(duì)于智能化設(shè)備,我們不僅需要考慮其“智商”需求,還要對(duì)其有“情商”要求,以真正的實(shí)現(xiàn)人機(jī)和諧、自然的交互。若在交互時(shí)能準(zhǔn)確識(shí)別出用戶(hù)當(dāng)前的狀態(tài),可以根據(jù)用戶(hù)的情感狀態(tài)、用戶(hù)的年齡、性別等其他信息提供符合用戶(hù)當(dāng)前需求的服務(wù),實(shí)現(xiàn)交互的個(gè)性化要求。
根據(jù)不同應(yīng)用場(chǎng)景的現(xiàn)實(shí)條件約束和系統(tǒng)要求,在交互時(shí),有多種模態(tài)的數(shù)據(jù)如語(yǔ)音、表情、姿態(tài)或者通過(guò)可穿戴設(shè)備采集的生理等信號(hào)均可以獲取用戶(hù)的情感信息,目前基于語(yǔ)音、表情、視頻以及生理信號(hào)的情感識(shí)別均吸引了較多研究者的關(guān)注。語(yǔ)音交流是人與人最自然的一種交互方式,數(shù)據(jù)的采集以及識(shí)別在不考慮背景噪音的情形下,相比其他模態(tài)數(shù)據(jù)均具有一定的便捷性,且具有對(duì)用戶(hù)的干擾小等優(yōu)點(diǎn)?;谡Z(yǔ)音的情感計(jì)算是目前研究的熱門(mén)課題,而對(duì)于情感的研究,目前較多的集中在情感類(lèi)別的識(shí)別或者情感在不同維度的值的預(yù)測(cè),重點(diǎn)關(guān)注識(shí)別的準(zhǔn)確率和識(shí)別的效率。對(duì)于異常情感的檢測(cè),是將類(lèi)別中的焦慮或者憤怒等個(gè)別的類(lèi)別作為異常情感來(lái)識(shí)別,而對(duì)于情感的變化則研究較少。眾所周知,語(yǔ)音信號(hào)是動(dòng)態(tài)變化的,具有非平穩(wěn)、非線性等特點(diǎn)。人類(lèi)的情感包含動(dòng)態(tài)的信息,難以使用靜態(tài)信息描述人們的情感交互。將語(yǔ)音信號(hào)抽象為一個(gè)動(dòng)態(tài)過(guò)程,是研究說(shuō)話(huà)人特點(diǎn)、情感預(yù)測(cè)和情感變化的基礎(chǔ)。
研究說(shuō)話(huà)人的情感狀態(tài),對(duì)于了解用戶(hù)的精神狀態(tài)、心理狀況以及將康狀況有著重要的影響。在中醫(yī)理論中,早有“怒傷肝,喜傷心,思傷脾,憂(yōu)傷肺,恐傷腎”的論斷。人的喜怒哀樂(lè)直接影響到生理健康狀態(tài)。研究指出許多心理疾病是由于人們情志不調(diào)引起的,正確認(rèn)識(shí)情緒與健康的關(guān)系,是保持人體健康的一個(gè)重要因素。心理學(xué)也指出長(zhǎng)期處于消極、悲觀的狀態(tài)會(huì)引起抑郁情緒,若長(zhǎng)期得不到有效的調(diào)節(jié),則會(huì)加重并發(fā)展為抑郁癥、焦慮癥等心理疾病。研究表明,當(dāng)人受驚嚇、焦慮不安時(shí)語(yǔ)速會(huì)變快,聲音頻率會(huì)加快,聲音會(huì)時(shí)有顫音。當(dāng)人憤怒時(shí)聲音會(huì)變高。當(dāng)人開(kāi)心時(shí)聲音會(huì)表現(xiàn)的很爽朗、明快。語(yǔ)音信號(hào)會(huì)隨著情感狀態(tài)的變化而產(chǎn)生相應(yīng)的變化,聲音信號(hào)可以很大程度上反映出人們的情緒狀態(tài),因此可以根據(jù)用戶(hù)的語(yǔ)音信號(hào)識(shí)別出情感狀態(tài)。隨著社會(huì)老齡化進(jìn)程的加快,老年人特別是獨(dú)居老人的情緒情感更加需要及時(shí)的情感監(jiān)控和調(diào)適。情感變化的檢測(cè)是情感識(shí)別的擴(kuò)展和延伸,是情感調(diào)適的基礎(chǔ),是實(shí)現(xiàn)個(gè)性化和諧化人機(jī)交互的重要課題之一。
2 情感變化的理論研究
2.1 情感變化的概念和衡量
情感的研究模型可以分為離散情感模型和維度情感模型。前者將情感定義為離散的、有限的幾種情感類(lèi)別,后者將情感定義為維度模型空間中的一個(gè)點(diǎn),該點(diǎn)唯一確定了用戶(hù)當(dāng)前的情感狀態(tài)信息。情感的變化是指兩個(gè)時(shí)刻語(yǔ)音幀對(duì)應(yīng)的情感狀態(tài)的差異。根據(jù)情感模型的不同,對(duì)于情感變化的研究方法也存在差異。
首先,對(duì)于情感變化的定義,離散情感模型研究的是從一種情感到另一種情感的狀態(tài)變遷,通常是判斷相鄰兩幀數(shù)據(jù)或者兩個(gè)不同時(shí)刻的情感變化;而對(duì)于連續(xù)情感模型來(lái)講,情感變化則定義為從情感空間的一個(gè)點(diǎn)移動(dòng)為另一個(gè)點(diǎn),從向量的角度來(lái)看,可視為向量的減法,對(duì)于多維的連續(xù)情感模型,則可以用張量的概念來(lái)表示。前者明確給出了情感狀態(tài)的變化,從什么狀態(tài)變遷到什么狀態(tài),但無(wú)法量化變化量的大小。后者從向量的角度,可以根據(jù)向量的夾角和向量的長(zhǎng)度衡量情感變化量的大小。研究人員提出從離散情感向維度情感的轉(zhuǎn)換,將離散情感類(lèi)型映射到維度空間模型中,二者建立起來(lái)聯(lián)系。圖1以二維情感Valence-Arousal模型為例,給出情感變化衡量的示意圖。Es、Et分別表示兩個(gè)不同時(shí)刻的情感,8E表示情感的變化值。圖2是離散情感和維度情感的映射表示。
2.2 情感變化的規(guī)律統(tǒng)計(jì)
離散情感的變化主要體現(xiàn)在的情感狀態(tài)的變遷以及變遷的條件和可能性。比較典型的研究方法是基于馬爾科夫鏈的方法及其改進(jìn)思路。該方法將情感的狀態(tài)轉(zhuǎn)移建模為馬爾科夫鏈,表示情感的狀態(tài)轉(zhuǎn)移,根據(jù)歷史轉(zhuǎn)移數(shù)據(jù)得到歷史統(tǒng)計(jì)概率,然后選擇少量的當(dāng)前數(shù)據(jù)作為測(cè)試數(shù)據(jù),獲取當(dāng)前的瞬時(shí)轉(zhuǎn)移概率,比較概率的不同。研究者Thornton M根據(jù)被試將自己的精神狀態(tài)上報(bào)以統(tǒng)計(jì)出其轉(zhuǎn)移規(guī)律,提出一種精神狀態(tài)轉(zhuǎn)移模型,文中表示人們的精神狀態(tài)的轉(zhuǎn)移也是符合一定規(guī)律的,與馬爾科夫模型一致。文章從心理學(xué)角度分析用戶(hù)的精神狀態(tài)轉(zhuǎn)移,為研究人們的情感狀態(tài)提供了有意義的理論支撐。Huang Z基于檢測(cè)說(shuō)話(huà)人變化的方法,提出一種利用先驗(yàn)知識(shí)采用滑動(dòng)窗口計(jì)算情感相似值的方法。如果相似值在指定的閾值以外,則認(rèn)為情感發(fā)生了變化。接著并對(duì)此方法進(jìn)行了改進(jìn),采用鞍方法的情感變化檢測(cè)框架,不同于大多數(shù)采用滑動(dòng)窗口的檢測(cè)情感變化的方法,鞍方法提供了一種新的檢測(cè)思路。王志良等則提出一種基于有限狀態(tài)自動(dòng)機(jī)的方法來(lái)研究情感的轉(zhuǎn)移。
維度情感方面Huang等采用Kalman濾波模型,分別研究了V、A兩個(gè)維度的情感變化預(yù)測(cè),先獲取觀測(cè)值再在下一時(shí)刻進(jìn)行更新,并引入一種延遲機(jī)制。從連續(xù)維度的角度來(lái)分析情感變化了多少以及變化的方向。在情感調(diào)適模型中,也是基于調(diào)適前和調(diào)適后的情感數(shù)據(jù)來(lái)衡量調(diào)適的效果。
2.3 異常情感變化的檢測(cè)
相比于正常的情感識(shí)別,異常情感檢測(cè)的研究更具有深遠(yuǎn)的價(jià)值,同時(shí)也只有掌握了正常情感的轉(zhuǎn)移規(guī)律
才能更好的識(shí)別異常情感,正常情感的識(shí)別和異常情感的檢測(cè)相輔相成。目前異常情感的檢測(cè)也主要基于歷史數(shù)據(jù)的統(tǒng)計(jì),識(shí)別規(guī)律并建立模型,然后根據(jù)此模型識(shí)別新的情感,并判斷情感轉(zhuǎn)移是否是異常情感轉(zhuǎn)移。
對(duì)于離散情感模型,Sun等研究者獲取情感轉(zhuǎn)移矩陣即得到情感轉(zhuǎn)移模型,然后根據(jù)此模型判斷是否是異常情感轉(zhuǎn)移。采用神經(jīng)網(wǎng)絡(luò)建立異構(gòu)模型識(shí)別用戶(hù)的情感,并通過(guò)采樣統(tǒng)計(jì)了日常對(duì)話(huà)場(chǎng)景中交互的雙方情感轉(zhuǎn)移的規(guī)律,將當(dāng)前的瞬時(shí)轉(zhuǎn)移規(guī)律與歷史統(tǒng)計(jì)規(guī)律比較,并參照閾值的大小判斷是否是異常情感轉(zhuǎn)移。建立一種動(dòng)態(tài)的情感轉(zhuǎn)移模型。Thomton指出人們的精神狀態(tài)的轉(zhuǎn)移時(shí),對(duì)于極性相反的轉(zhuǎn)移一般需要經(jīng)過(guò)中間狀態(tài)的過(guò)渡,比如從積極狀態(tài)先轉(zhuǎn)移到中性的情感狀態(tài)后再轉(zhuǎn)移到負(fù)向的情感狀態(tài),而直接發(fā)生情感突變的情形較少。維度情感模型,重點(diǎn)在于閾值的確定即相鄰兩幀數(shù)據(jù)情感的變化達(dá)到什么程度時(shí)可以定位為異常的情感變化,同時(shí)還應(yīng)考慮其變化的方向。
3 語(yǔ)音情感變化的典型應(yīng)用
基于語(yǔ)音的情感變化的檢測(cè)有著較為廣泛的應(yīng)用前景。首先,異常情感變化的識(shí)別即是一項(xiàng)典型的應(yīng)用場(chǎng)景。對(duì)于獨(dú)居老人,遠(yuǎn)方子女或者親屬參照老人日常的語(yǔ)料的收集,根據(jù)與老人的電話(huà)、在線語(yǔ)音聊天等應(yīng)用中的數(shù)據(jù)檢測(cè)可以及時(shí)識(shí)別老人的情感變化,比如突然失落或者暴怒,此時(shí)及時(shí)給予干預(yù)觸發(fā)其情感超積極情感轉(zhuǎn)移,必要時(shí)請(qǐng)專(zhuān)業(yè)人士輔助進(jìn)行心理和情緒調(diào)適,或者采用智能設(shè)備比如使用情感機(jī)器人等作為老人的精神陪伴。再者,對(duì)于飛行員、火車(chē)、地鐵駕駛員、海底探險(xiǎn)等特殊任務(wù)中,對(duì)人的情緒狀態(tài)監(jiān)控,也有著非常重要的意義。另外,在心理咨詢(xún)和心理治療中,可以監(jiān)測(cè)咨詢(xún)者的情感變化給予輔助診斷,輔助咨詢(xún)師做出心理調(diào)適的引導(dǎo)和輔助治療,隨著調(diào)適和輔助效果的提升,可以推廣在線智能咨詢(xún),減少心理咨詢(xún)師的工作壓力,并為患者提供更加便捷的服務(wù)。語(yǔ)音情感的監(jiān)控以及語(yǔ)音情感變化的識(shí)別。總之,語(yǔ)音情感監(jiān)控和情感變化的檢測(cè),在面向老年人的健康監(jiān)護(hù)、駕駛員、飛行員、探險(xiǎn)和事故救援、在線心理援助以及心理咨詢(xún)等方面有著日益廣泛和深入的應(yīng)用。
4 結(jié)束語(yǔ)
本文從情感模型入手,研究了基于語(yǔ)音的情感變化模型以及異常情感檢測(cè)的研究思想和主要方法,并對(duì)情感變化的典型應(yīng)用場(chǎng)景進(jìn)行了展望。隨著情感識(shí)別技術(shù)的不斷改進(jìn)、情感識(shí)別準(zhǔn)確率和算法性能的不斷提升以及多模態(tài)情感研究的持續(xù)推進(jìn),基于多模態(tài)的情感識(shí)別和情感變化檢測(cè)、實(shí)時(shí)的情感檢測(cè)將給用戶(hù)帶來(lái)更加便捷和個(gè)性化、智能化的人機(jī)交互體驗(yàn)。
參考文獻(xiàn)
[1]韓文靜.語(yǔ)音情感識(shí)別關(guān)鍵技術(shù)研究[D].哈爾濱工業(yè)大學(xué),2013.
[2]Li M, Han K J,Narayanan S. Automaticspeaker age and gender recognitionusing acoustic and prosodic levelinformation fusion [J]. ComputerSpeech&Language, 2013. 27 (1): 151-167.
[3] Schuller B W. Speech EmotionRecognition: Two Decades in aNutshell, Benchmarks, and OngoingTrends [J]. Communications of theAcm, 2018, 61 (5): 90-99.
[4] Ma X, Lin W, Huang D, et al.
Facialemotion recognition [C],/ IEEE,Internat ional
Conference on
Signaland Image Processing. IEEE, 2017.
[5]段立娟,葛卉,楊震.一種基于核超限學(xué)習(xí)機(jī)的多模融合視頻情感識(shí)別方法:,CN105512609A [P]. 2016.
[6] Liu S, Chen L, Guo D, et al.Incorporation of Multiple-Days Information to Improve theGeneraliza tion
of
EEG-Ba sed
Emot ionRecognition Over Time: [J]. Frontiersin Human Neuroscience, 2018, 12.
[7]牛臘紅,劉濤,情緒與健康[J].中華中醫(yī)藥學(xué)刊,2007, 25 (03):544-545.
[8] Schuller B W. Speech EmotionRecognition: Two Decades in aNutshell, Benchmarks, and OngoingTrends [J]. Communications of theAcm, 2018, 61 (5): 90-99.
[9] Moataz M. H. El Ayadi, MohamedS. Kamel, Fakhri Karray: Surveyon speech emotion recognit ion:Features, classification schemes, anddatabases. Pattern Recognit ion44 (3):572-587 (2011)
[10] Sun X, Zhang C, Lian L I. DynamicEmotion Modelling and AnomalyDetection in Conversat ion Based onEmotional Transition Tensor [J].Informat ion Fusion,
2018.
[11] Thornton M A, Tamir D I. Mentalmodels accurately predict emotiontransitions [Psychological andCognitive Sciences] [J] .
Proceedingsof the National Academy of Sciencesof the United States of America.2017, 114 (23) : 5982.
[12] Huang Z. An investigation ofemotion changes f rom speech [C] //Internat ional Conference on AffectiveComputing & Intelligent Interaction.IEEE Computer Society, 2015.
[13] Huang Z, Epps J. DETECTING THEINSTANT OF EMOTION CHANGE FROM SPEECHUSING A MARTINGALE FRAMEWORK [C] //IEEE International Conference onAcoustics. IEEE. 2016.工程 , 2010, 36 (18) : 24-25.
[15] Zhaocheng Huang, Julien Epps: AnInvestigation of Emotion Dynamicsand Kalman Filtering for Speech-Based
Emo tion Prediction. INTERSPEECH2017: 3301-3305
[16] Zhaocheng Huang, Julien Epps:Prediction of Emotion Change FromSpeech. Front. ICT 2018 (2018)
[17]Cirakman 0. Gunsel B. Online speakeremotion tracking with a dynamic statetransition model [C] //
Interna tionalConference on Pattern Recognition.IEEE, 2017.
[18] Thornton M A. Tamir D I. Mentalmodels accurately predict emotiontransitions [Psychological andCognitive Sciences] [J]. Proceedingsof the National Academy of Sciencesof the United States of America,2017, 114 (23) : 5982.
[19] S. Lugovic, I. Dunder, M.Horvat: Techniques and applicat ionsof emotion recognition in speech.MIPR0 2016: 1278-1283