肖鵬 于丹 王建超 來關(guān)軍
摘? 要:對(duì)話機(jī)器人技術(shù)一直是人機(jī)交互領(lǐng)域的研究熱點(diǎn),基于文本或者語音的對(duì)話機(jī)器人已經(jīng)廣泛應(yīng)用于生活當(dāng)中。然而,構(gòu)建能夠與人類進(jìn)行自然的、流暢的對(duì)話的機(jī)器人仍然充滿挑戰(zhàn)。情感作為擬人性的重要方面能夠提高人機(jī)交互的自然性和流暢性。因此,為了推進(jìn)對(duì)話機(jī)器人技術(shù)的發(fā)展,本文對(duì)情感型對(duì)話機(jī)器人的相關(guān)概念、發(fā)展歷史、情感生成方式、設(shè)計(jì)思路和評(píng)價(jià)方式的相關(guān)研究展開了系統(tǒng)的梳理。情感型對(duì)話機(jī)器人主要分為指定類別情感回復(fù)和生成式情感回復(fù)兩種,其中生成式情感回復(fù)是未來發(fā)展的主要趨勢。
關(guān)鍵詞:對(duì)話機(jī)器人;情感;設(shè)計(jì);評(píng)價(jià)
Abstract: Chatbot technology has always been a research focus in the field of human-computer interaction. Chatbots based on text or voice have been widely used in practices. However, it is still challenging to build chatbots that can converse with human in a natural and fluent way. Emotion, an important aspect of anthropomorphism, can make human-computer interaction more natural and fluent. Therefore, in order to promote development of chatbot technology, this paper provides a systematic review of emotional chatbots, including related concepts, development history, emotion generation methods, design ideas, and evaluation methods. Emotion-enabled chatbots are divided into emotional responses of designated categories and generative emotional responses, of which generative emotional responses are the main trend.
Keywords: chatbot; emotion; design; evaluation
1? ?引言(Introduction)
對(duì)話機(jī)器人能夠通過語音或者文本的方式使用自然語言與人類對(duì)話,從而使人類能夠輕松地與機(jī)器進(jìn)行交流。對(duì)話機(jī)器人相關(guān)技術(shù)研究已經(jīng)持續(xù)了很多年,一部分研究將對(duì)話機(jī)器人的對(duì)話限制于特定的知識(shí)領(lǐng)域[1],例如預(yù)訂助手、電商客服等;而另一部分研究則要求對(duì)話機(jī)器人能夠處理開放域內(nèi)的任意輸入并產(chǎn)生合理的回復(fù),例如Siri、Amazon Lex和小冰[2]等。近年來,深度神經(jīng)網(wǎng)絡(luò)和大數(shù)據(jù)科學(xué)的發(fā)展加速了對(duì)話機(jī)器人技術(shù)的進(jìn)步,然而,目前的對(duì)話機(jī)器人技術(shù)仍然處于初級(jí)階段,設(shè)計(jì)一個(gè)能夠與人類進(jìn)行連貫的、自然的且兼顧上下文語境的對(duì)話系統(tǒng)仍有很長的路要走。
作為人類智力的重要組成部分,情感被定義為感知、整合、理解和調(diào)節(jié)情緒的能力[3]。研究表明,考慮了情感因素的對(duì)話機(jī)器人能夠明顯降低對(duì)話中斷概率并提高用戶的滿意度[4]。因此,為了提高現(xiàn)有對(duì)話機(jī)器人對(duì)自然語言的理解,從而產(chǎn)生更符合對(duì)話情景的答復(fù),一些研究將情感因素作為對(duì)話機(jī)器人的重要組成部分[5]。引入了情感因素的對(duì)話系統(tǒng)會(huì)根據(jù)用戶的情緒狀態(tài)產(chǎn)生蘊(yùn)含適當(dāng)情緒的回復(fù),能夠有效提高用戶參與度并創(chuàng)造更積極的對(duì)話環(huán)境,有效降低人機(jī)間的誤解并保持人機(jī)對(duì)話上下文的情感一致性[6],如表1所示。本文總結(jié)了現(xiàn)有工作在情感與對(duì)話機(jī)器人技術(shù)融合方面做出的努力,詳細(xì)地介紹了情感型對(duì)話機(jī)器人技術(shù)的設(shè)計(jì)與實(shí)現(xiàn)及相關(guān)的評(píng)價(jià)方法。
2? ?研究背景(Research background)
近年來,基于深度學(xué)習(xí)算法的自然語言處理技術(shù)取得了巨大的進(jìn)步,使用自然語言作為人機(jī)交互的媒介成為一種可靠又新穎的方式。因此,人機(jī)交互方式正從預(yù)先設(shè)定的界面交互方式向基于自然語言的交互方式轉(zhuǎn)變。通過自然語言與機(jī)器交互時(shí),使用者通常使用文本或者語音的方式向?qū)υ挋C(jī)器人提出問題,對(duì)話機(jī)器人則使用同樣的方式回答用戶的問題,這種基于自然語言的人機(jī)交互系統(tǒng)被稱作對(duì)話機(jī)器人或者對(duì)話代理系統(tǒng)。目前,越來越多的對(duì)話機(jī)器人被應(yīng)用到人們的日常生活中,耳熟能詳?shù)挠刑O果手機(jī)中的Siri、百度的小度、小米的小愛同學(xué)等。普華永道最近的調(diào)查報(bào)告顯示,每1,000名參與調(diào)研的用戶中,有700多名受訪者經(jīng)常使用對(duì)話機(jī)器人完成日常的工作需求。根據(jù)Gartner的最新預(yù)測,到2022年,對(duì)話機(jī)器人將會(huì)代替人工客服完成85%的客服服務(wù)項(xiàng)目[7]。
關(guān)于對(duì)話機(jī)器人的研究已經(jīng)持續(xù)了多年,新技術(shù)的不斷出現(xiàn)使得對(duì)話機(jī)器人具有多種分類方式。通常,可以根據(jù)對(duì)話機(jī)器人的交互方式、對(duì)話內(nèi)容的知識(shí)領(lǐng)域、使用方式以及對(duì)話的生成方式來劃分對(duì)話機(jī)器人的類別[1]。如圖1所示,這些劃分標(biāo)準(zhǔn)涵蓋了對(duì)話機(jī)器人的核心設(shè)計(jì)理念、對(duì)話理解方式以及對(duì)會(huì)話上下文考慮的程度。根據(jù)交互方式的差異,對(duì)話機(jī)器人可以劃分為基于文本交互的對(duì)話機(jī)器人與基于語音交互的機(jī)器人;根據(jù)對(duì)話內(nèi)容的知識(shí)領(lǐng)域劃分,對(duì)話機(jī)器人可以劃分為開放域?qū)υ挋C(jī)器人與封閉域?qū)υ挋C(jī)器人,前者要求對(duì)話機(jī)器人能夠回答任何知識(shí)領(lǐng)域內(nèi)的問題,而后者只要求對(duì)話機(jī)器人能夠回答某個(gè)知識(shí)領(lǐng)域內(nèi)的問題即可。當(dāng)以使用方式或者應(yīng)用任務(wù)領(lǐng)域劃分對(duì)話機(jī)器人時(shí),可以將對(duì)話機(jī)器人劃分為任務(wù)型對(duì)話機(jī)器人和非任務(wù)型對(duì)話機(jī)器人,前者將對(duì)話機(jī)器人的設(shè)計(jì)目的限制于使其能夠幫助人們完成指定的工作任務(wù),如預(yù)訂助手、客服服務(wù)等。最后,還可以基于對(duì)話機(jī)器人的對(duì)話生成方式對(duì)其進(jìn)行分類,此時(shí)可以將其劃分為檢索式對(duì)話機(jī)器人與生成式對(duì)話機(jī)器人。前者是對(duì)話機(jī)器人最常用的對(duì)話生成技術(shù),它以會(huì)話的上下文作為輸入,并使用啟發(fā)式的函數(shù)從數(shù)據(jù)庫中獲取最佳的匹配回答;后者則不依賴于數(shù)據(jù)庫中預(yù)先定義好的問答對(duì),使用特定的算法結(jié)合輸入問題生成新的回答,但生成式對(duì)話機(jī)器人需要大量的訓(xùn)練數(shù)據(jù),并且難以優(yōu)化。
發(fā)展至今,基于對(duì)話機(jī)器人的人機(jī)交互場景中仍然存在著連貫性差、回答內(nèi)容生硬以及上下文語境不符等問題?,F(xiàn)有工作表明,考慮了情感因素的對(duì)話機(jī)器人能夠有效地改善以上問題。構(gòu)建具有情感屬性的擬人性對(duì)話機(jī)器人能更好地理解對(duì)話中的情感因素,并在生成的回復(fù)中蘊(yùn)含特定的情感,使對(duì)話機(jī)器人具有移情能力[8]。這種移情能力能夠改善用戶的使用體驗(yàn),提高用戶的參與度并減少人機(jī)對(duì)話的中斷次數(shù),從一定程度上改善了對(duì)話機(jī)器人存在的連貫性差和自然性差等問題。因此,越來越多的對(duì)話機(jī)器人開始考慮情感因素的影響,使得構(gòu)建情感因素相關(guān)的對(duì)話機(jī)器人成為對(duì)話機(jī)器人領(lǐng)域的研究熱點(diǎn)。本文主要介紹情感因素在對(duì)話機(jī)器人系統(tǒng)中的應(yīng)用。為了區(qū)別于普通對(duì)話機(jī)器人,本文將能夠理解用戶的情緒狀態(tài),并在生成的對(duì)話中蘊(yùn)含特定情感的對(duì)話機(jī)器人稱為情感型對(duì)話機(jī)器人。至此,在總結(jié)了前人的工作之余,本文將會(huì)進(jìn)一步介紹三方面內(nèi)容:一是情感型對(duì)話機(jī)器人的發(fā)展歷史;二是情感型對(duì)話機(jī)器人技術(shù)的設(shè)計(jì)與實(shí)現(xiàn);三是情感型對(duì)話機(jī)器人的評(píng)價(jià)方法。
3? 情感型對(duì)話機(jī)器人的歷史(History of emotional chatbot)
發(fā)布于1966年的ELIZA是第一個(gè)能夠通過圖靈測試的對(duì)話機(jī)器人[9],它使用簡單的模式匹配與替換規(guī)則,就使得用戶誤以為正在與人進(jìn)行溝通。Parry是第一個(gè)考慮了情感因素并通過圖靈測試的對(duì)話機(jī)器人。Parry的設(shè)計(jì)模式與ELIZA類似,但其在基于規(guī)則生成對(duì)話的同時(shí)還設(shè)置了一個(gè)能夠產(chǎn)生情緒的情感模塊,因此Parry被認(rèn)為是第一個(gè)情感型對(duì)話機(jī)器人。Polzin和Waibel在2000年提出的人機(jī)交互系統(tǒng)使用分類器對(duì)用戶的音調(diào)進(jìn)行分類,并根據(jù)感知到的情感類別使用相應(yīng)的話術(shù),使得人機(jī)間的交互更加自然和流暢。2010年,Skowron提出一款能夠監(jiān)聽情感的對(duì)話系統(tǒng),該系統(tǒng)能夠檢測對(duì)話內(nèi)容中包含的情感類別,旨在感知用戶的情感狀態(tài),并在內(nèi)容和情感相關(guān)性上產(chǎn)生對(duì)用戶來說更有意義的回復(fù)[10]。這些早期工作的靈感大多來自心理學(xué),并在小規(guī)模數(shù)據(jù)集下使用規(guī)則生成回復(fù),難以推廣到更廣泛的對(duì)話生成場景中。
2014年推出的社交對(duì)話機(jī)器人小冰在設(shè)計(jì)原理上同時(shí)考慮了智商與情商,并基于檢索的方式生成對(duì)話。作為一款情感伴侶對(duì)話機(jī)器人,小冰能夠滿足用戶對(duì)溝通、情感和社會(huì)歸屬感的需求[2]。當(dāng)前,使用深度神經(jīng)網(wǎng)絡(luò)算法構(gòu)建對(duì)話機(jī)器人系統(tǒng)成為主流。2014年提出的序列到序列(Seq2Seq)[11]模型能夠提高對(duì)話生成的質(zhì)量,促進(jìn)多樣性以及處理未知單詞等,因此成為構(gòu)建對(duì)話系統(tǒng)的主流模型。2018年,ZhouHao首次使用深度神經(jīng)網(wǎng)絡(luò)算法并結(jié)合情感因素構(gòu)建大型情感對(duì)話機(jī)器人(Emotional Chatting Machine,ECM),其使用三個(gè)情感相關(guān)模塊共同影響對(duì)話的產(chǎn)生,使得系統(tǒng)不僅在內(nèi)容的相關(guān)性和語法正確性上產(chǎn)生適當(dāng)?shù)幕貜?fù),還能夠保證對(duì)話上下文情感的一致性[12]。以ECM為代表的情感型對(duì)話機(jī)器人為了控制回復(fù)中的情感因素,需要手動(dòng)指定生成的對(duì)話情感類別,因此,這些情感對(duì)話機(jī)器人更多的是關(guān)注生成的對(duì)話中所包含的情感與預(yù)先設(shè)定的情感類別是否一致。然而,在實(shí)際交流中,人類能夠自然而然地從交談中感知對(duì)方的情感類別。為了省略手動(dòng)指定生成對(duì)話所包含的情感類別,使情感型對(duì)話機(jī)器人具有更自然的同理心,論文[13]借助VA模型[14]編輯情感詞匯,進(jìn)而構(gòu)建了情感相關(guān)的損失函數(shù),以鼓勵(lì)在對(duì)話的生成中產(chǎn)生豐富的情感詞匯,使得問題與回復(fù)在情感上有自然而然的承接性,增加了對(duì)話機(jī)器人的同理心。論文[15]借助遷移學(xué)習(xí)的思想,對(duì)一個(gè)基于多任務(wù)訓(xùn)練的大規(guī)模語言模型進(jìn)行微調(diào),在對(duì)話情緒檢測和移情對(duì)話生成方面都取得了最佳結(jié)果。
在情感型對(duì)話機(jī)器人的數(shù)據(jù)支持方面,伴隨著研究的深入,帶有情感標(biāo)記的對(duì)話數(shù)據(jù)集也相繼公布,更權(quán)威的金標(biāo)準(zhǔn)數(shù)據(jù)改善了對(duì)話系統(tǒng)的性能并為該領(lǐng)域的研究持續(xù)賦能。DAILYDIALOG[16]是一個(gè)針對(duì)日常聊天場景的多輪對(duì)話數(shù)據(jù)集,并且數(shù)據(jù)集中的每一句對(duì)話都進(jìn)行了手動(dòng)情感類別標(biāo)注。EMOTIONLINES[17]將對(duì)話內(nèi)容標(biāo)注為七個(gè)基本情緒類別:中性、高興、驚訝、悲傷、憤怒、厭惡及恐懼,該數(shù)據(jù)集由兩部分組成,分別采集于Facebook聊天記錄和電視劇《老友記》,由29,245 句短句構(gòu)成2,000 段日常對(duì)話。數(shù)據(jù)集STC[18]是一個(gè)采集自新浪微博的中文單輪對(duì)話數(shù)據(jù)集,無情感標(biāo)注,但ECM使用分類器將STC數(shù)據(jù)劃分為六類情感類別,作為情感對(duì)話數(shù)據(jù)集,STC需要借助情感分類器預(yù)先劃分類別,因此數(shù)據(jù)質(zhì)量較差。最后,論文[19]提出一個(gè)包含了150 萬條Twitter對(duì)話的數(shù)據(jù)集,可以用于訓(xùn)練通過音調(diào)感知用戶情緒的對(duì)話機(jī)器人。
4? 情感型對(duì)話機(jī)器人技術(shù)的設(shè)計(jì)與實(shí)現(xiàn)(Design and implementation of emotional chatbot technology)
情感型對(duì)話機(jī)器人的主要任務(wù)是能夠感知用戶的情緒,并在產(chǎn)生的回復(fù)中蘊(yùn)含針對(duì)性的情感,提升人機(jī)交流的自然性、流暢性。早期的情感型對(duì)話機(jī)器人使用基于規(guī)則的方式生成帶有情感信息的回復(fù)。目前,主流的情感型對(duì)話機(jī)器人都使用了深度神經(jīng)網(wǎng)絡(luò)算法,這些對(duì)話機(jī)器人使用編碼器-解碼器的結(jié)構(gòu)訓(xùn)練一個(gè)Seq2Seq模型,編碼器負(fù)責(zé)對(duì)輸入信息進(jìn)行編碼,解碼器負(fù)責(zé)對(duì)編碼后的信息解碼并產(chǎn)生適當(dāng)?shù)幕貜?fù)內(nèi)容。Seq2Seq模型通常由兩個(gè)遞歸神經(jīng)網(wǎng)絡(luò)構(gòu)成(RNNs)[20],一個(gè)充當(dāng)編碼器,一個(gè)充當(dāng)解碼器。作為RNNs最重要的改進(jìn),LSTM[21]與GRU[22]如今廣泛地應(yīng)用在對(duì)話機(jī)器人系統(tǒng)中。
使用深度神經(jīng)網(wǎng)絡(luò)算法構(gòu)建對(duì)話系統(tǒng)時(shí),通常使用編碼器-解碼器的結(jié)構(gòu)創(chuàng)建一個(gè)Seq2Seq模型,編碼器和解碼器分別由LSTM或GRU構(gòu)成。以LSTM為例,解碼器接收提問序列輸入,并將其轉(zhuǎn)化為隱藏狀態(tài)序列,編碼器的隱藏狀態(tài)會(huì)被編碼成上下文序列,在生成狀態(tài)時(shí),LSTM會(huì)兼顧歷史隱藏狀態(tài)與上下文信息:
同時(shí),解碼器在解碼狀態(tài)時(shí),通常會(huì)將前一時(shí)刻預(yù)測的單詞的詞向量編碼與上下文序列拼接作為一個(gè)整體,并同時(shí)考慮歷史狀態(tài):
對(duì)于生成的狀態(tài),解碼器使用以下公式生成對(duì)應(yīng)的回復(fù)單元:
本文主要介紹基于深度神經(jīng)網(wǎng)絡(luò)算法的對(duì)話機(jī)器人系統(tǒng)。如上所述,基于深度神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)的情感型對(duì)話機(jī)器人可以分為兩類:一類是生成蘊(yùn)含情感因素的回復(fù)之前需要手動(dòng)指定回復(fù)中帶有的情感類別,因此,這種方法在輸入對(duì)話上文的同時(shí)還要指定生成的對(duì)話中需要包含的情感類別;另一類方法則認(rèn)為生成的回復(fù)中所應(yīng)包含的情感已經(jīng)蘊(yùn)含在上下文對(duì)話當(dāng)中,不需要手動(dòng)指定。前者能夠按照需求靈活產(chǎn)生包含指定情感的回復(fù),但是需要大量的帶有情感標(biāo)記的訓(xùn)練數(shù)據(jù);而后者能夠基于現(xiàn)有的大量語料庫訓(xùn)練而不受限于情感標(biāo)注,但是其生成的對(duì)話所包含的情感類別是不受控制的。
ECM[12]是第一個(gè)考慮了情感因素的大規(guī)模情感型對(duì)話系統(tǒng),如圖2所示。ECM使用GRU構(gòu)建編碼器-解碼器結(jié)構(gòu),為了達(dá)到能夠在回復(fù)中包含指定類型情感的目的,ECM在解碼階段設(shè)置了三個(gè)輔助機(jī)制:情感類別嵌入機(jī)制、內(nèi)部記憶單元以及外部記憶單元。情感類別嵌入機(jī)制使用固定維度向量表示情感的類別,并將情感類別的向量表示與上下文和的詞編碼拼接后輸入解碼器中。內(nèi)部記憶單元是一個(gè)輔助回復(fù)中情感表達(dá)的機(jī)制,根據(jù)論文[23]提出的理論,有關(guān)情緒的回復(fù)具有更短的生命周期并具有較強(qiáng)的波動(dòng)性。受此啟發(fā),作者將情緒相關(guān)的狀態(tài)存儲(chǔ)在內(nèi)部記憶單元,通過讀門和寫門更新內(nèi)部記憶單元中的情緒狀態(tài),并且隨著解碼過程的進(jìn)行,內(nèi)部記憶單元中的情緒相關(guān)狀態(tài)會(huì)不斷地衰減,當(dāng)解碼完成時(shí),內(nèi)部單元中的狀態(tài)應(yīng)該衰減為0。外部記憶單元的設(shè)計(jì)目的是顯式地增強(qiáng)生成的回復(fù)中指定的情感類型的表達(dá)強(qiáng)度,它會(huì)同時(shí)計(jì)算情感字典和通用字典中的候選詞概率,并根據(jù)狀態(tài)計(jì)算情感因子,并使用和對(duì)不同詞典的候選詞加權(quán),進(jìn)而生成最終的候選詞。受ECM啟發(fā),EmoDS[24]認(rèn)為回復(fù)中的情感表達(dá)既可以通過強(qiáng)烈的情感詞匯顯式地表現(xiàn),也可以在不包含情感詞匯的情況下隱晦地表達(dá)。因此,作者設(shè)計(jì)了基于詞典的Attention機(jī)制,鼓勵(lì)將回復(fù)中的情感詞匯替換為在情感詞典中的同義詞,顯式地增加回復(fù)中情感的表達(dá)強(qiáng)度。此外,作者還設(shè)計(jì)了一個(gè)句子級(jí)別的情感分類器,在整體層面上指導(dǎo)回復(fù)中情感的生成,以一種隱晦的方式提高回復(fù)中情感的表達(dá)強(qiáng)度。EmoDS與ECM類似,都使用編碼器-解碼器結(jié)構(gòu)構(gòu)造了一個(gè)端到端的Seq2Seq結(jié)構(gòu)來實(shí)現(xiàn)對(duì)話系統(tǒng)。由于指定的情感類型的限定,以ECM為代表的情感型對(duì)話機(jī)器人的合理回復(fù)空間被進(jìn)一步限制,因此情感型對(duì)話機(jī)器人面臨嚴(yán)峻的安全問題。CDL[25]為了解決這個(gè)問題,提出了課程對(duì)偶學(xué)習(xí)框架,在保證回復(fù)中情感表達(dá)強(qiáng)度的同時(shí),還能夠保持上下文語法及內(nèi)容的合理性。CDL通過訓(xùn)練前向傳播模型與反向傳播模型構(gòu)建對(duì)偶學(xué)習(xí),并使用強(qiáng)化學(xué)習(xí)交替訓(xùn)練兩個(gè)模型,前向傳播模型是給出提問與指定的情緒類別生成對(duì)應(yīng)的回復(fù),反向傳播模型是給出回復(fù)內(nèi)容及相應(yīng)的情緒類別反推提問,訓(xùn)練中的獎(jiǎng)勵(lì)由情感表達(dá)一致性獎(jiǎng)勵(lì)與內(nèi)容一致性獎(jiǎng)勵(lì)的加權(quán)和表示。為了提高模型訓(xùn)練的穩(wěn)定性,CDL引入了課程學(xué)習(xí)輔助訓(xùn)練,根據(jù)訓(xùn)練數(shù)據(jù)情感分類的難易程度選取了前1%最簡單數(shù)據(jù)參與最初的訓(xùn)練,并隨著訓(xùn)練的進(jìn)行逐漸增加訓(xùn)練樣本的難度,一段時(shí)間后恢復(fù)為正常的訓(xùn)練模式。通過個(gè)性化的訓(xùn)練方式,CDL能夠有效地降低對(duì)話機(jī)器人出現(xiàn)安全問題的概率,并提升對(duì)話機(jī)器人的對(duì)話品質(zhì)。
與ECM和CDL不同,另一部分研究者認(rèn)為回復(fù)中所包含的情感類型應(yīng)該由對(duì)話系統(tǒng)自己生成而非人為指定。ANRG[15]認(rèn)為傳統(tǒng)的對(duì)話系統(tǒng)在情感語義的捕獲上缺乏效率,因此在使用傳統(tǒng)的詞編碼之外,還使用了VAD情緒模型構(gòu)建詞的情緒編碼W2AV,然后將兩種編碼向量拼接作為輸入,如圖3所示。在訓(xùn)練階段,作者通過對(duì)損失函數(shù)添加情緒相關(guān)正則項(xiàng),鼓勵(lì)網(wǎng)絡(luò)在生成的回復(fù)中盡可能包含更多的情緒表達(dá),從而使對(duì)話系統(tǒng)具有同理心。在解碼階段,作者提出一種改進(jìn)的Beam Search算法,增加回復(fù)生成語義的多樣性,從而提高對(duì)話系統(tǒng)的情感多樣性。與ANRG顯式地獲取輸入的情感詞編碼不同,MoEL[26]使用一個(gè)情感追蹤模塊去探測輸入中的情緒狀態(tài)分布,并根據(jù)相關(guān)分布使用對(duì)應(yīng)的監(jiān)聽器生成移情回復(fù)。除了充分利用對(duì)話上下文的信息外,研究者也使用多任務(wù)學(xué)習(xí)訓(xùn)練對(duì)話機(jī)器人輔助移情對(duì)話的生成。而Know-EDG[9]認(rèn)為人類的情感回復(fù)很大程度上依賴于外部知識(shí)與社會(huì)經(jīng)驗(yàn),因此作者為對(duì)話機(jī)器人引入了兩個(gè)外部知識(shí)庫:ConceptNet與NRC-VAD,前者是一個(gè)通用的常識(shí)圖譜,后者則是一個(gè)被廣泛接受的帶有VAD情緒強(qiáng)度描述的情感詞匯庫。作者使用NRC-VAD度量ConceptNet中各元組尾實(shí)體的VAD值,并與輸入序列中的各元素構(gòu)成一個(gè)情感相關(guān)的對(duì)話上下文關(guān)系圖譜,基于構(gòu)建的上下文關(guān)系圖譜對(duì)輸入序列中的各元素進(jìn)行編碼,并在編碼過程中同時(shí)考慮了局部信息與全局信息,使用self-attention編碼當(dāng)前元素與相連元素的關(guān)系,使用transformer結(jié)合LayerNorm編碼當(dāng)前元素與全局信息的關(guān)系。同時(shí),作者還使用輸入各元素情感值的softmax輸出加權(quán)對(duì)應(yīng)的各元素的編碼向量,然后基于這些加權(quán)后的編碼向量使用線性分類器預(yù)測輸入中攜帶的情感類別,輔助解碼器生成蘊(yùn)含合理情感信息的回復(fù)。在解碼階段,作者使用改進(jìn)的transformer進(jìn)一步增強(qiáng)生成回復(fù)中的情感表達(dá),使得解碼階段更加關(guān)注情感相關(guān)單元。
5? 情感型對(duì)話機(jī)器人的評(píng)價(jià)(Evaluation of emotional chatbot)
情感型對(duì)話機(jī)器人的評(píng)價(jià)分為自動(dòng)評(píng)價(jià)與人工評(píng)價(jià)。常用的自動(dòng)評(píng)價(jià)指標(biāo)有BLEU評(píng)分、Dist-1與Dist-2、情感準(zhǔn)確性、情感詞評(píng)價(jià)、困惑度評(píng)價(jià)等。BLEU用于評(píng)價(jià)回復(fù)與提問在內(nèi)容上的相關(guān)性,但是,文獻(xiàn)[26]認(rèn)為BLEU與人類的判斷相關(guān)性較低,因此目前并不常用。Dist-1與Dist-2用于評(píng)價(jià)生成回復(fù)的多樣性。情感準(zhǔn)確性用于評(píng)價(jià)生成回復(fù)中的情感類別與手動(dòng)指定的情感類別的一致性。情感詞評(píng)價(jià)用于評(píng)價(jià)生成回復(fù)中包含指定情感詞匯的百分比。困惑度評(píng)價(jià)則用于評(píng)價(jià)生成的回復(fù)在語法上的正確性。因此,常用的自動(dòng)評(píng)價(jià)方法是從多樣性、情感一致性、回復(fù)內(nèi)容的語法正確性三方面評(píng)價(jià)對(duì)話機(jī)器人的性能。而對(duì)于人工評(píng)價(jià),常見的做法是招募多名專業(yè)的注釋人員在移情性、相關(guān)性和流利度三個(gè)方面評(píng)價(jià)生成的回復(fù)。移情性表示生成的回復(fù)是否理解了提問者的情感,相關(guān)性表示生成的回復(fù)是否符合對(duì)話上下文語境,流利度則表示生成的回復(fù)語法是否正確可讀。每個(gè)方面共有五級(jí)標(biāo)準(zhǔn),級(jí)別越高評(píng)價(jià)越積極。此外,也常常會(huì)對(duì)不同人員的評(píng)價(jià)進(jìn)行一致性分析,作為對(duì)話機(jī)器人性能的評(píng)價(jià)。
6? ?結(jié)論(Conclusion)
本文介紹了對(duì)話機(jī)器人的研究背景及大致分類,并討論了情感型對(duì)話機(jī)器人的發(fā)展歷史與技術(shù)的設(shè)計(jì)和實(shí)現(xiàn)。對(duì)話機(jī)器人的研究具有很長的歷史,情感作為擬人性的重要標(biāo)志,成為構(gòu)建更高級(jí)對(duì)話機(jī)器人的必要因素。因此,情感型對(duì)話機(jī)器人引起了越來越多的關(guān)注。目前,情感型對(duì)話機(jī)器人主要分為兩類,一類是需要手動(dòng)指定生成回復(fù)中需要蘊(yùn)含的情感類別;另一類則根據(jù)上下文自動(dòng)生成蘊(yùn)含特定情感類別的回復(fù)。前者依賴于大量有情感標(biāo)記的數(shù)據(jù),但生成的回復(fù)中蘊(yùn)含的情感類別靈活可控。后者對(duì)數(shù)據(jù)集的要求更寬松,但是生成的回復(fù)中蘊(yùn)含的情感類別并不穩(wěn)定。對(duì)情感型對(duì)話機(jī)器人的評(píng)估,研究者們通常從回復(fù)內(nèi)容的正確性、多樣性以及情感一致性三方面考慮,可以使用自動(dòng)的評(píng)價(jià)方法,也可以基于人工進(jìn)行評(píng)估。
參考文獻(xiàn)(References)
[1] 賈熹濱,李讓,胡長建,等.智能對(duì)話系統(tǒng)研究綜述[J].北京工業(yè)大學(xué)學(xué)報(bào),2017,43(09):1344-1356.
[2] Zhou L, Gao J, Li D, et al. The design and implementation of Xiaoice, an empathetic social chatbot[J]. Computational Linguistics, 2020, 46(1):53-93.
[3] Sluyter, Peter S, David J. Emotional Development and Emotional Intelligence: Educational Implications[J]. Gifted Child Quarterly, 1997, 43(2):108-110.
[4] Prendinger H, Mori J, Ishizuka M. Using human physiology to evaluate subtle expressivity of a virtual quizmaster in a mathematical game[J]. International journal of human-computer studies, 2005, 62(2):231-45.
[5] Ghosh S, Chollet M, Laksana E, et al. Affect-lm: A neural language model for customizable affective text generation[DB/OL]. [2017-04-22].? https://arxiv.org/pdf/1704.06851.pdf.
[6] Chaves AP, Gerosa MA. How should my chatbot interact? A survey on human-chatbot interaction design[DB/OL]. [2019-04-04]. https://arxiv.org/pdf/1904.02743.pdf.
[7] Svikhnushina E, Pu P. Should Machines Feel or Flee Emotions? User Expectations and Concerns about Emotionally Aware Chatbots[DB/OL]. [2020-06-24]. https://arxiv.org/pdf/2006.13883.pdf.
[8] Li Q, Li P, Chen Z, et al. Empathetic dialogue generation via knowledge enhancing and emotion dependency modeling[DB/OL]. [2020-09-21]. https://arxiv.org/pdf/2009.09708.pdf.
[9] Weizenbaum J. ELIZA—a computer program for the study of natural language communication between man and machine[J]. Communications of the ACM, 1966, 9(1):36-45.
[10] Skowron M. Affect listeners: Acquisition of affective states by means of conversational systems[C]. In Development of Multimodal Interfaces: Active Listening and Synchrony, 2010:169-181.
[11] Shang L, Lu Z, Li H. Neural responding machine for short-text conversation[DB/OL]. [2015-03-09]. https://arxiv.org/pdf/1503.02364.pdf.
[12] Zhou H, Huang M, Zhang T, et al. Emotional chatting machine: Emotional conversation generation with internal and external memory[DB/OL]. [2017-04-25]. https://arxiv.org/pdf/1704.01074.pdf.
[13] Asghar N, Poupart P, Hoey J, et al. Affective neural response generation[C]. In European Conference on Information Retrieval, 2018:154-166.
[14] Warriner AB, Kuperman V, Brysbaert M. Norms of valence, arousal, and dominance for 13,915 English lemmas[J]. Behavior research methods, 2013,45(4):1191-1207.
[15] Lin Z, Xu P, Winata GI, et al. CAiRE: An End-to-End
Empathetic Chatbot[C]. In AAAI, 2020:13622-13623.
[16] Li Y, Su H, Shen X, et al. Dailydialog: A manually labelled multi-turn dialogue dataset[DB/OL]. [2017-10-11]. https://arxiv.org/pdf/1710.03957.pdf.
[17] Chen SY, Hsu CC, Kuo CC, et al. Emotionlines: An emotion corpus of multi-party conversations[DB/OL]. [2018-02-23]. https://arxiv.org/pdf/1802.08379.pdf.
[18] Shang L, Lu Z, Li H. Neural responding machine for short-text conversation[DB/OL]. [2015-03-09]. https://arxiv.org/pdf/1503.02364.pdf.
[19] Zhou X, Wang WY. Mojitalk: Generating emotional responses at scale[DB/OL]. [2017-11-11]. https://arxiv.org/pdf/1711.04090.pdf.
[20] Zaremba W, Sutskever I, Vinyals O. Recurrent neural network regularization[DB/OL]. [2014-09-08]. https://arxiv.org/pdf/1409.2329.pdf.
[21] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural computation, 1997, 9(8):1735-1780.
[22] Cho K, Van Merri?nboer B, Gulcehre C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[DB/OL]. [2014-06-03]. https://arxiv.org/pdf/1406.1078.pdf.
[23] Hochschild AR. Emotion work, feeling rules, and social structure[J]. American journal of sociology, 1979, 85(3):551-75.
[24] Song Z, Zheng X, Liu L, et al. Generating responses with a specific emotion in dialog[C]. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019:3685-3695.
[25] Shen L, Feng Y. CDL: Curriculum Dual Learning for Emotion-Controllable Response Generation[DB/OL]. [2020-05-01]. https://arxiv.org/pdf/2005.00329.pdf.
[26] Liu CW, Lowe R, Serban IV, et al. How not to evaluate your dialogue system: An empirical study of unsupervised evaluation metrics for dialogue response generation[DB/OL]. [2016-03-25]. https://arxiv.org/pdf/1603.08023.pdf.
作者簡介:
肖? ?鵬(1993-),男,碩士,初級(jí)研究員.研究領(lǐng)域:計(jì)算機(jī)視覺,自然語言處理.
于? ?丹(1976-),女,博士,研究員.研究領(lǐng)域:數(shù)據(jù)分析與挖掘,人工智能.
王建超(1989-),男,碩士,中級(jí)研究員.研究領(lǐng)域:人工智能,圖像處理.
來關(guān)軍(1984-),男,碩士,中級(jí)研究員.研究領(lǐng)域:大數(shù)據(jù)分析,人工智能.