亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于強化學習的機器人認知情感交互模型

2021-06-24 09:40:10黃宏程

電子與信息學報 2021年6期

關(guān)鍵詞：概率機器人狀態(tài)

黃宏程李凈胡敏陶洋* 寇蘭

①(重慶郵電大學通信與信息工程學院重慶 400065)

②(重慶市通信軟件工程技術(shù)研究中心重慶 400065)

1 引言

近年來，隨著“智能家居”、“智慧社區(qū)”以及“智慧城市”等概念的提出與落實，人機交互成為公眾日常生活中不可或缺的一部分。人們期望機器人在滿足日常交互需求的同時，具備生成高級擬人化情感的認知情感計算能力。同時隨著心理學、認知科學與人工智能交叉研究的深入，研究者發(fā)現(xiàn)機器智能應體現(xiàn)在“智商”與“情商”兩個方面。因此，認知情感計算成為當前智能機器人研究領(lǐng)域中的熱點。

認知情感計算就是要賦予計算機類似于人一樣觀察、理解和生成各種情緒狀態(tài)的能力，使其能夠像人一樣進行自然親切、生動有趣的交互[1]。近年來，在認知情感計算方面，涌現(xiàn)出眾多具有參考價值的情感模型。文獻[2]提出基于PAD (Pleasure-Arousal-Dominance)的個性化情感模型，建立個性空間、心情空間與情感空間的3層映射關(guān)系來描述人類情感變化規(guī)律。文獻[3]提出在云、邊及用戶協(xié)作下利用遷移學習進行情感分析，能有效分析用戶的情感狀態(tài)。文獻[4]提出面向時序感知的多類別商品方面情感分析推薦模型，可推斷用戶在任意時間對商品的偏好。文獻[5]提出基于指導性認知重評策略GCRs的情感交互模型，能降低機器人對外界情感刺激的依賴性，并在一定程度上促進機器人的積極情感表達。文獻[6]提出多情感對話系統(tǒng)MECS，傾向在對話中產(chǎn)生連貫的情感反應，選擇最相似情感作為機器人響應情感。文獻[7]提出情感驅(qū)動的自私MANETS節(jié)點協(xié)商機制，模擬人類出價心理和情感變化提高節(jié)點出價競爭力。文獻[8]提出ECM情緒聊天機，可以在內(nèi)容上和情感一致性上產(chǎn)生適當響應。文獻[9]提出生成對抗網(wǎng)絡SentiGAN模型，在無監(jiān)督情況下生成不同情緒標簽通用的高質(zhì)量情感文本。文獻[10]提出基于句法約束的雙向異步情感會話生成方法E-SCBA，將情感與主題引入解碼增加回復響應的多樣性。文獻[11]提出融合強化學習與情感編輯約束的對話生成模型，能同時保證回復生成的流暢度與情感度。以上工作在一定程度上考慮了情感生成影響因素，但多為在“單輪交互模型”中加入影響情感生成的不同特征進行認知情感計算，未全面考慮上下文情境對當前情感狀態(tài)生成的影響，或僅考慮了某種情感生成影響因素，容易使機器人情感回應合理性不高、參與人喪失交互意愿。

因此，針對人機交互過程中機器人的情感生成問題，本文依據(jù)PAD 3維情感空間提出一種基于強化學習的機器人認知情感交互模型，試圖利用強化學習全局統(tǒng)籌特性，建立上下文多輪情感狀態(tài)與機器人當前情感響應之間的長期關(guān)聯(lián)關(guān)系；利用強化學習獎勵引導特性，實現(xiàn)對參與人進行情感支持、積極性引導以及情感共鳴的情感交互動機。通過考慮多輪多層次情感影響因素對人機交互過程中的情感生成過程建模以實現(xiàn)情感決策問題，得到機器人在連續(xù)多情感狀態(tài)空間中的最優(yōu)響應情感值。

2 人機交互情感分析

2.1 基于強化學習的認知情感計算

在人類情感生成過程中，個體情感狀態(tài)響應不僅與外界情感刺激相關(guān)，還與自身情感狀態(tài)和情感交互動機有關(guān)。進行情感狀態(tài)響應時，不僅要考慮上下文多輪交互情境對當前情感狀態(tài)轉(zhuǎn)移概率的影響，還應考慮當前情感狀態(tài)響應對后續(xù)交互關(guān)系的影響。因此，為有效進行機器人情感策略學習，本文提出利用強化學習特性建立上下文多輪情感狀態(tài)與當前響應情感狀態(tài)之間的關(guān)聯(lián)關(guān)系，對機器人進行認知情感計算，計算框架如圖1所示。

2.2 基于情感空間的情感狀態(tài)分析

為便于實現(xiàn)參與人情感狀態(tài)跟蹤，對交互輸入內(nèi)容進行情感量化與狀態(tài)評估。本文首先依據(jù)文獻[12]提供的數(shù)據(jù)與方法，對交互輸入內(nèi)容進行情感量化，得到其在PAD連續(xù)情感空間中對應的情感值Ei=(p，a，d)。其次，依據(jù)參考文獻[13]，對交互情感值向量 Ei進行狀態(tài)評估，得到其在PAD連續(xù)情感空間內(nèi)6種基本情感狀態(tài)作用下的情感狀態(tài)向量I(Ei)。情感狀態(tài)評估函數(shù)定義為

圖1 機器人情感計算框架

其中， Ei表示交互輸入情感值；j =1，2，···，6分別表示高興、驚訝、厭惡、生氣、恐懼、悲傷6種基本情感狀態(tài)； Ej表示基本情感j對應的情感值；Cj表示基本情感j聚類區(qū)域的協(xié)方差矩陣；hj表示Ei到Ej之間的距離；ij則表示Ei在Ej作用下的情感狀態(tài)評估值。

3 基于強化學習的認知情感交互模型

3.1 強化學習定義

強化學習模型原理為：一個智能體(agent)，在當前狀態(tài)(state)下，執(zhí)行一個行為(action)與環(huán)境（environment）進行交互并進入一個新的狀態(tài)，同時從環(huán)境中獲得相應的即時獎勵（reward），再根據(jù)獎勵評估此行為，利于目標實現(xiàn)的行為其獎勵值增加，不利于目標實現(xiàn)的行為獎勵值衰減，此過程不斷循環(huán)到終止狀態(tài)為止。

3.1.1 狀態(tài)

狀態(tài)s表示智能體所處的情感狀態(tài)，通常由外部環(huán)境給出。為減小情感劃分粒度，增加機器人情感表達連續(xù)性與細膩性，本文將含有151種情感狀態(tài)的PAD連續(xù)情感空間作為智能體的情感狀態(tài)空間，將空間中各情感狀態(tài)在6種基本情感狀態(tài)作用下的情感狀態(tài)向量I(Ei)作為可能的交互輸入響應情感狀態(tài)。

3.1.2 行為

行為a表示智能體在交互響應過程中，選擇下一輪響應情感狀態(tài)時執(zhí)行的一個動作，其搜索空間為情感空間大小。智能體在情感空間中的活動過程即情感空間各情感狀態(tài)間的馬爾可夫轉(zhuǎn)移過程。

3.1.3 折損因子

折損因子γ可在環(huán)境具有隨機性的情況下，用于計算狀態(tài)序列累積獎勵的未來獎勵衰減。本文考慮在距離當前會話越遠的將來時刻，未來獎勵對用于衡量下一輪會話情感狀態(tài)的滿意度的影響越小。其值介于0～1之間，考慮對未來獎勵的重視程度越大，γ值越大；反之，γ值越小。

3.1.4 獎勵

獎勵r可在智能體執(zhí)行相應動作a后，用于衡量所獲得情感狀態(tài)的未來滿意度。人機交互雙方在交互過程中均存在一定的情感動機[4]。因此，依據(jù)社會心理學中人際吸引原則將機器人的交互情感動機設定為能在一定程度上實現(xiàn)對參與人的情感肯定、情緒引導與情感共鳴，并據(jù)此對情感獎勵函數(shù)進行構(gòu)建。

相似性(similarity)：考慮人際交往過程中，人們往往希望對方能與自己產(chǎn)生相似的情感反應，即期望對方能夠“樂他人之樂，憂他人之憂”。因此，為實現(xiàn)對參與人的情感肯定，本文依據(jù)文獻[14]，計算余弦相似度來度量情感狀態(tài)向量間的相似性

積極性(positive)：考慮人際交往過程中，人們會通過調(diào)整自身情感表達狀態(tài)實現(xiàn)對他人的某種情緒引導。因此，為實現(xiàn)對參與人的情緒引導，本文通過設定機器人情感積極性引導來增加參與人交互意愿。實際上情緒引導并非積極度越高越好，尤其在參與人情緒比較消極時可能會適得其反。而積極性與相似性協(xié)同作用，恰好能有效解決引導過度問題。因此，本文對響應情感狀態(tài)向量進行積極度計算

共情性(empathy)：考慮人際交往過程中，人際吸引不僅與個體間相似性有關(guān)，還受彼此互補關(guān)系影響。受互補關(guān)系影響主要表現(xiàn)在人們有時會傾向于喜歡那些與自己能在某方面產(chǎn)生互補的人。在情感交互中，可以理解為期望對方具備“同理心”，與自己在情感表達上產(chǎn)生共鳴關(guān)系。因此，本文通過計算情感狀態(tài)向量之間的相互關(guān)系來度量情感共情性

其中，P(a|I(Ek))表示智能體在輸入情感狀態(tài)下選擇響應情感狀態(tài)的轉(zhuǎn)移概率；P(I(Ek)|a)表示由響應情感狀態(tài)選擇輸入情感狀態(tài)的后向轉(zhuǎn)移概率；rank(Ek)與 rank(Ek+1)分別表示情感狀態(tài)Ek與Ek+1之間反向轉(zhuǎn)移概率排名與正向轉(zhuǎn)移概率排名，轉(zhuǎn)移概率越大，排名越高。依據(jù)文獻[2]，本文通過利用情感空間中各情感狀態(tài)間轉(zhuǎn)移概率與狀態(tài)間歐氏距離成反比，對情感狀態(tài)間的初始轉(zhuǎn)移概率進行計算。

對于一個動作a，其獲得的最終獎勵為以上3個獎勵衡量指標的加權(quán)和

本文參數(shù)權(quán)重設置為α1=0.4， α2=0.3， α3=0.3。

3.1.5 策略(policy)

策略P用于表示在當前狀態(tài)下，智能體選擇下一情感狀態(tài)時對應的概率分布，可用公式表示為π(a|s)=PRL(I(Ek+1)|I(Ek))，初始值為情感狀態(tài)間的初始轉(zhuǎn)移概率。本文采用策略梯度算法對模型進行優(yōu)化，因此其值與選擇下一情感狀態(tài)可獲得的未來獎勵值相關(guān)，獲得未來獎勵值大的動作出現(xiàn)概率就大，對應地獲得未來獎勵值小的動作出現(xiàn)概率則小。

3.1.6 模型優(yōu)化

本文通過策略梯度算法將策略參數(shù)化實現(xiàn)模型更新訓練，目的是通過優(yōu)化模型參數(shù)θ使未來累積獎勵期望值達到最大。因此，目標函數(shù)為最大化未來獎勵的期望值，定義為

其中，Rk(ak，I(Ek))表示在狀態(tài)I(Ek)下執(zhí)行動作ak獲得的獎勵值；再采用似然比技巧進行梯度更新

最后利用所求得的梯度值對參數(shù)θ進行更新

累積獎勵期望值達到最大時，所得最優(yōu)策略對應的情感狀態(tài)為交互輸入的最優(yōu)響應情感狀態(tài)。

3.1.7 情感交互過程模擬

本文利用兩個智能體進行交互以模擬智能體與外界環(huán)境的情感交互過程：智能體1將初始交互輸入情感 E1通過情感評估為情感狀態(tài)向量I(E1)后將其傳送給智能體2，然后智能體2將得到的交互響應情感 E2同樣評估為情感狀態(tài)向量I(E2)再回復給智能體1，不斷重復此過程至模擬的最大交互輪數(shù)。交互目標是在當前交互輸入情感狀態(tài)下能夠選擇獲得未來獎勵最多的最優(yōu)情感狀態(tài)。智能體之間的情感交互過程如圖2所示。

圖2 情感交互過程

依據(jù)文獻[15]，利用情感空間中情感狀態(tài)間距離的遠近來映射情感類別間的相似性。距離越近，相似性越大，情感狀態(tài)間轉(zhuǎn)移概率越大；距離越遠，相似性越小，情感狀態(tài)間轉(zhuǎn)移概率越小。并且，某一情感狀態(tài)到情感空間中其他各情感狀態(tài)的轉(zhuǎn)移概率之和為1[16]。因此，為便于對情感刺激的響應情感狀態(tài)進行計算，本文將空間中與外界情感刺激點歐氏距離最近的前 n種情感狀態(tài)作為智能體每輪交互的候選情感狀態(tài)。

3.2 機器人情感狀態(tài)更新

依據(jù)參考文獻[17]，本文利用機器人受k 輪交互參與人輸入的外界情感刺激后得到的k+1輪最優(yōu)響應情感狀態(tài)向6種基本情感狀態(tài)轉(zhuǎn)移的概率和6種基本情感狀態(tài)在空間中的坐標值(pj，aj，dj)對k+1輪機器人響應情感值在空間中的坐標位置進行標定，實現(xiàn)機器人在連續(xù)情感空間中的情感狀態(tài)轉(zhuǎn)移。首先，假設強化學習模型所得最優(yōu)響應情感狀態(tài)向量對應策略為p，可以得到依據(jù)參與人交互輸入響應情感狀態(tài)向6種基本情感狀態(tài)轉(zhuǎn)移的概率為

3.3 交互模型構(gòu)建

表1 基于強化學習的機器人認知情感交互模型

4 實驗與分析

4.1 實驗設計

為便于對文本所提認知情感交互模型進行性能分析與對比實驗，依據(jù)文獻[18]利用開源聊天機器人ChatterBot構(gòu)建基于本文認知情感模型的文本聊天機器人。首先，利用聊天機器人邏輯適配器進行答案匹配，返回置信度較高的前m 個答案作為候選答案集；然后，利用本文模型進行情感策略評估，選擇最優(yōu)情感策略。最后，依據(jù)本文模型響應情感對候選答案進行最優(yōu)排序，并選擇排序等級最高的答案作為機器人響應輸出。此外，由于需要探索的情感狀態(tài)數(shù)會隨著交互輪數(shù)的增加呈指數(shù)增長，本文模型在進行情感狀態(tài)評估時，設置兩個智能體的最大交互輪數(shù)T =8(輪)，每輪候選情感狀態(tài)選取數(shù)n=8(種)。

實驗數(shù)據(jù)采用NLPCC2017共享任務Emotional Conversation Generation中的樣本數(shù)據(jù)集，此數(shù)據(jù)集共包含1119207個問答對，隨機劃分8000個問答對作為驗證集，5000個問答對作為測試集，剩余問答對用作聊天機器人的中文訓練語料。

實驗主要圍繞情感準確度與人機交互會話實際效果展開，因此選取以下認知模型進行對比實驗：

文獻[18]提出機器人認知模型Chatterbot，根據(jù)候選答案集中各答案置信度高低進行輸出響應。由于其不具備認知情感計算能力，只用于模型有效性驗證對比實驗；文獻[8]提出情緒聊天機ECM，可以在內(nèi)容相關(guān)語法和情緒一致性上產(chǎn)生適當?shù)捻憫?；文獻[9]提出生成對抗網(wǎng)絡SentiGAN模型，能夠生成通用的、多樣化的、高質(zhì)量的情感文本；文獻[10]提出雙向異步情感會話生成方法E-SCBA，能夠生成具有邏輯性和情感度的文本；

文獻[5]提出基于指導性認知重評策略GCRs的情感交互模型，能夠降低機器人對外界情感刺激的依賴性，并在一定程度上促使機器人的積極情感表達。其中ECM， SentiGAN和E-SCBA均為考慮一定情感因素的生成式聊天機器人模型，本文在進行情感準確度、信息檢索有效性驗證時需要將其作用下聊天機器人的響應文本量化為情感狀態(tài)向量。

4.2 情感準確度分析

為避免機器人情感表達含糊不清使得參與人對響應情感狀態(tài)識別困難，響應情感狀態(tài)在預期情感類別的表達上應具備一定準確度。為直觀對各模型作用下機器人情感生成狀態(tài)的準確性進行評估，依據(jù)文獻[11]，對響應情感的目標情感類別準確度進行計算

從測試集中隨機劃分出含有多個情感類別的100句對各模型進行響應情感狀態(tài)準確率計算，結(jié)果見表2。由表2可見，本文模型在情感準確度方面均好于其他模型，這主要是由于本文在進行機器人情感狀態(tài)轉(zhuǎn)移概率更新時，將輸入響應情感狀態(tài)到各基本情感狀態(tài)轉(zhuǎn)移概率的置信度作為更新因子，有效地增加了輸入響應預期情感類別對機器人情感狀態(tài)轉(zhuǎn)移概率的影響。

表2 不同模型情感準確度統(tǒng)計表

4.3 模型有效性驗證

4.3.1 信息檢索有效性度量

為便于對模型答案檢索有效性進行驗證，依據(jù)文獻[19]采用兩個信息檢索評價指標MRR(Mean Reciprocal Rank)和MAP(Mean Average Precision)對各個模型候選答案進行排序準確率計算，從測試集中隨機選取60句進行試驗，取排序準確率平均值作為實驗最終結(jié)果，結(jié)果見表3。

表3為對不同認知模型答案(m=6)排序平均準確率的統(tǒng)計結(jié)果，由表可見本文模型與其他模型相比取得了令人相對滿意的結(jié)果。這是由于本文模型在對候選答案進行排序時，通過結(jié)合上下文情感狀態(tài)的量化評估與類人情感狀態(tài)影響因素的分析量化，利用強化學習建立上下文長期情感狀態(tài)之間的關(guān)聯(lián)關(guān)系，以實現(xiàn)對下文狀態(tài)響應的綜合最優(yōu)評定，具備較好的認知情感能力。

表3 不同模型排序準確率統(tǒng)計表

4.3.2 交互會話有效性驗證

為對交互會話有效性進行有效評估，本文邀請20位志愿者參與不同模型下的多次人機交互。同時，為增加模型間客觀對比性，各模型每人均進行30次多輪人機交互會話實驗。并從測試集中隨機選取30句依次作為各模型中參與人進行交互會話的初始輸入，統(tǒng)計各模型每次進行人機交互的會話輪數(shù)與交互時間。實驗所得不同模型下平均會話輪數(shù)與平均交互時間統(tǒng)計結(jié)果見表4。

表4 會話輪數(shù)與交互時間統(tǒng)計表

由表4可見，在平均會話輪數(shù)與平均交互時間上本文模型均優(yōu)于其他模型，說明本文模型作用下的聊天機器人更不容易使聊天陷入尷尬境地，能有效延長人機交互會話時間。這是由于本文模型在多情感狀態(tài)連續(xù)空間中考慮類人情感生成并結(jié)合機器人自身情感狀態(tài)更新得到的響應情感的多樣性更豐富、積極性與準確度更高，有效地引導了參與人參與人機交互。

4.4 模型滿意度評估

為對模型滿意度進行有效評估，本文從單輪對話主觀滿意度、多輪會話主觀滿意度兩個方面進行問卷調(diào)查實驗。單輪對話主觀滿意度評價指標為合理性、多樣性、共情度。實驗過程為：從測試集中隨機選取100句用于測試，實驗共計使用500個問答對，多渠道邀請200名志愿者進行線上線下問卷調(diào)查；多輪會話主觀滿意度評價指標為流暢度、積極度、有趣度、參與度，具實驗過程為：依據(jù)評價指標對交互會話有效性驗證中的20位人機交互志愿者進行多輪會話滿意度調(diào)查。同時，所有指標均采用三點量表(0，1，2)進行評估：0表示程度較低，1表示程度一般，2表示程度較高。最終統(tǒng)計結(jié)果取平均值，得分越高模型滿意度越高。模型單輪對話主觀滿意度調(diào)查結(jié)果見圖3，多輪會話主觀滿意度調(diào)查結(jié)果見圖4。

圖3 單輪對話主觀評估數(shù)據(jù)統(tǒng)計圖

圖4 多輪會話主觀評估數(shù)據(jù)統(tǒng)計圖

由圖3可見，本文模型在對話合理性、多樣性以及共情度上均明顯優(yōu)于其他模型，尤其在情感表達多樣性上獲得了很好的效果，這是由于本文在進行情感決策時充分利用了情感空間中的多種情感狀態(tài)，結(jié)果表明本文模型能從多方面有效提升機器人單輪對話響應滿意度。由圖4可見，本文模型在機器人情感表達整體流暢度與積極度上、人機交互有趣度以及參與人參與度上較其他模型均取得有效提升，說明本文在進行情感交互模型構(gòu)建時，建立的上下文長期依賴關(guān)系與考慮到的情感生成影響因素合理有效，能進一步增加參與人的人機交互意愿、構(gòu)建自然和諧的人機交互關(guān)系。

5 結(jié)束語

本文提出一種基于強化學習的機器人認知情感交互模型，首先，利用強化學習對情感生成過程建模，將PAD情感空間作為機器人的情感狀態(tài)空間，情感劃分粒度小，表達細膩；其次，考慮將相似性、積極性與共情性3個情感影響因素量化為進行情感狀態(tài)評估的獎勵函數(shù)，實現(xiàn)對參與人進行情感支持、情緒引導、情感共鳴的交互動機；最后，結(jié)合最優(yōu)情感狀態(tài)對機器人情感狀態(tài)轉(zhuǎn)移概率進行更新，從而進一步得到機器人在情感空間中的坐標位置，實現(xiàn)機器人在連續(xù)情感空間中的狀態(tài)轉(zhuǎn)移。實驗從準確性、MAP和MRR等方面驗證了模型有效性。由于人類情感生成過程具有復雜性、情感狀態(tài)轉(zhuǎn)移概率影響因素具有多樣性，而本文模型只考慮了情感生成與狀態(tài)轉(zhuǎn)移過程中的部分影響因素。因此，未來工作還需全面考慮人類情感生成與狀態(tài)轉(zhuǎn)移過程中的影響因素以進一步優(yōu)化類人情感狀態(tài)生成。