亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

聊天機器人的分類標準和評估標準綜述

2021-04-06 04:04:19王艷秋管浩言張彤

軟件工程 2021年2期

王艷秋管浩言張彤

摘? 要：近年來，人工智能和大數(shù)據(jù)技術的發(fā)展極大地推動了聊天機器人產(chǎn)業(yè)的發(fā)展。如今，聊天機器人種類眾多，但質(zhì)量參差不齊，對其進行評估成為當下的重要問題之一。本文首先通過功能和技術實現(xiàn)方式方面的分析，對當前的聊天機器人進行了歸納分類。然后從多方面對聊天機器人的評估方式進行了系統(tǒng)的整理與總結，并詳細介紹分析了其中各種評估指標。最后探討了當前聊天機器人的研究難點與評估難點，并在此基礎上對聊天機器人未來的研究發(fā)展方向進行了展望。

關鍵詞：聊天機器人;分類標準;評估標準

Abstract： In recent years， the development of artificial intelligence and big data technology has greatly promoted chatbot industry. Currently， there are many types of chatbots， but the quality is uneven， and the evaluation criteria are becoming an important issue. This paper first summarizes and categorizes the current chatbots technology based on their functions and technical implementation methods. Then， it systematically proposes an evaluation approach for chatbots quality via different aspects， and introduces various evaluation indicators in detail. Finally， current research issues and evaluation difficulties of chatbots are discussed， and on this basis， future research and development directions of chatbots are prospected.

Keywords： chatbot; classification criteria; evaluation criteria

1? ?引言（Introduction）

隨著人工智能和大數(shù)據(jù)技術的發(fā)展，聊天機器人已經(jīng)不再是個新鮮的詞匯，并且早已慢慢滲入人們的日常生活中，如蘋果的Siri、阿里巴巴的阿里小蜜、百度的小度、微軟的Cortana和小冰、亞馬孫的Alexa、IBM的Watson等。這些聊天機器人應用于不同場景，有著不同的定位與功能，但其中都使用了自然語言處理（Natural Language Processing，NLP）相關技術，使機器人能夠使用文本或語音與人類進行對話。如今的聊天機器人并不完善，時常會出現(xiàn)答非所問、語句不通順等問題，因此聊天機器人需要能夠反映其真實智能水平的評估標準來促進其優(yōu)化改進。本文針對不同功能與技術實現(xiàn)方式對聊天機器人進行了分類，同時對現(xiàn)有的所有聊天機器人評價指標進行了分析、分類與總結，并指出了當下聊天機器人發(fā)展的困境以及未來的發(fā)展方向。

2? ?聊天機器人分類（Chatbot taxonomy）

2.1? ?任務導向型與閑聊型

根據(jù)功能的不同，可分為任務導向型聊天機器人和閑聊型聊天機器人。任務導向型聊天機器人是指以任務驅(qū)動來完成多輪對話的對話系統(tǒng)，通常針對封閉專業(yè)領域知識，機器人需要在對話過程中理解、澄清并生成對話，其構建方式主要為Pipeline和End-to-end。Pipeline的構建采用模塊化結構，包含四個主要模塊：自然語言理解（Natural Language Understanding，NLU）、對話狀態(tài)追蹤（Dialogue State Tracking，DST）、對話策略學習（Dialogue Policy Learning，DPL）、自然語言生成（Natural Language Generation，NLG）。這種構建方式容易實現(xiàn)，可解釋性強，但模塊之間誤差會逐層積累，又因各模塊之間相互獨立導致無法聯(lián)合調(diào)優(yōu)。End-to-end即基于深度學習的端到端系統(tǒng)，使用大量標注數(shù)據(jù)進行訓練得到一個深度學習模型，用戶從輸入端輸入語句便可從輸出端得到相應回復。這種方法可擴展性強，但需要大量且高質(zhì)量的標注數(shù)據(jù)，目前仍處于探索階段。閑聊型聊天機器人主要與用戶進行面向開放域的閑聊，目標是與用戶進行有意義的自然多輪對話。相比于任務導向型聊天機器人，閑聊型聊天機器人涉及的領域范圍更大，用戶意圖更模糊難識別，因此要求更高，實現(xiàn)更難。

2.2? ?檢索式與生成式

聊天機器人需要對用戶的輸入做出自然的語言回復，這涉及自然語言生成技術。根據(jù)對話生成的不同技術，可將聊天機器人分為檢索式與生成式兩種[1]。檢索式模型基于現(xiàn)成的數(shù)據(jù)庫進行基于規(guī)則的模式匹配，或應用較為復雜的深度學習算法進行模式匹配，但并不生成全新的回復。因此檢索式模型產(chǎn)生的回復具有流暢自然、信息量豐富的優(yōu)點，但同時也具有無法進行上下文關聯(lián)的不足[2]。最早出現(xiàn)的模擬心理醫(yī)生的聊天機器人ELIZA便是完全基于規(guī)則手工建立的，雖然能夠生成較好的回復，但構建過程過于煩瑣，耗費了大量人力。生成式模型則會產(chǎn)生全新的語句回復，通過將大量人類真實語料輸入深度學習模型中進行特征提取與特征學習，再使用模型對用戶的輸入做出回復。生成式模型會有記憶功能，即可利用歷史對話信息形成對話的上下文關聯(lián)，但生成的回復可能會有不符合語法規(guī)則、語句不通順、逃避復雜問題進行無意義回復等情況出現(xiàn)。目前生成效果較好的模型有微軟DialoGPT、谷歌Meena、Facebook Blender、百度PLATO & PLATO-2等，這些均使用了超大規(guī)模文本數(shù)據(jù)進行模型訓練，模型參數(shù)都在億量級。

3? ?評價指標分類（Evaluation index taxonomy）

聊天機器人評價通常是指對機器人對話回復質(zhì)量的評估，但也有聊天機器人能夠識別用戶發(fā)出的圖片并進行回復與評論，這時則涉及圖像描述生成的相關評估。此外，對于一些產(chǎn)品化的任務導向型聊天機器人，也需要進行一些產(chǎn)品層面的評估。本文分別對這幾類聊天機器人的評價指標進行了總結，圖1是所有評價指標的分類圖。下文將對所有評價指標進行詳細介紹。

3.1? ?對話評估

3.1.1? ?人工評價

人工評價是目前最準確、最有效地對話質(zhì)量評價指標，但存在耗費人力、耗時長的問題，主要包含成對對比和李克特量表評價兩種評價方式。

成對對比：即對兩個系統(tǒng)產(chǎn)生的回復就不同的側重點進行人工評價，如圖2所示的ACUTE-EVAL評估界面，它要求人們比較兩個多輪對話，在對話1（淺藍色）和對話2（深藍色）之間進行選擇。同樣還有基于單輪對話的成對對比評估。

李克特量表：在聊天機器人的人工評價中，李克特量表指的是李克特量表形式的人工評分，評分可設置為3、5、7等級，如對聊天機器人的回復是否連貫進行5等級評分，將分數(shù)范圍設置為[0，1，2，3，4]，再由人工針對回復的連貫性在分數(shù)范圍內(nèi)選擇合適的分數(shù)進行評價?？梢葬槍υ捹|(zhì)量的多方面進行評價，如對話的信息量（Informativeness）、連貫性（Coherence）、新穎性（Engagingness）、人性（Humanness）等。還有一種谷歌在其Meena聊天機器人中提出的評價指標SSA（Sensibleness and Specificity Average），指的是敏感性和特異性平均值。特異性表示是否是針對上句對話的特定的具體的回答，敏感性表示聊天機器人的對話是否有意義。單純以敏感性作為唯一指標，會導致回答趨向模糊無聊的安全回答，因此將敏感性與特異性結合來進行綜合評價更能體現(xiàn)回復的質(zhì)量。實驗顯示，SSA與自動評價指標困惑度成正相關關系。

盡管人們一直在探索能夠代替人工評價的自動評價方法，但至今沒有自動評價方法能夠代替人工評價，人工評價仍是所有聊天機器人都必須進行的評價。人工評價盡管必不可少，但也有一些弊端，例如不同模型的評價者背景條件、人群規(guī)模往往不盡相同，在不同模型之間很難做到完全客觀的對比評價。

3.1.2? ?自動評價

自動評價可以分為兩部分：一部分不需要參考回復即可進行評價，其中包含針對檢索式模型和生成式模型的評價指標;另一部分是需要參考回復的評價指標，且基本都是針對生成式模型所生成對話的質(zhì)量的評價。而根據(jù)評價原理又可分為基于詞重疊、基于詞向量以及基于深度學習的各種評價指標。

（1）不需要參考回復——檢索式模型

檢索式聊天機器人的關鍵點在于匹配答案時候選回復的排列順序，所以其評價指標一般使用傳統(tǒng)信息檢索系統(tǒng)常用的評價指標。

召回率（Recall）：又稱查全率，指檢索出的相關回復占所有相關回復總數(shù)的比例，表示是否查全。

準確率（Precision）：又稱查準率，指檢索出的相關回復占所有檢索出的回復總數(shù)的比例，表示是否查準。

F值（F-measure）：指召回率和準確率的調(diào)和平均值，它綜合了兩者的評價效果。

平均準確率均值（Mean Average Precision，MAP）：平均準確率（Average Precision，AP）將準確率與候選回復的排列順序相結合，如公式（3）所示，其中i指第i個候選回復;s表示第i個回復的位置，指的是一個查詢中檢索出的相關回復的P@K的平均值。MAP則是對所有查詢的平均準確率再求均值，其值越高說明檢索出的相關回復排列順序越靠前。

（2）不需要參考回復——生成式模型

生成式模型主要評價的是生成回復的質(zhì)量，其評價一方面聚焦于回復本身的信息量和生成概率，另一方面則由用戶與其交互的時間來側面反映。

熵（Entropy）：指的是回復中N-gram包含的信息量，用來衡量回復多樣性[4]。

困惑度（Perplexity）：語言模型的標準度量指標[5]，可用來評價對話模型中回復的生成質(zhì)量，一定程度上可體現(xiàn)多樣性，是目前常用的聊天機器人回復質(zhì)量評價指標。語言模型實際上是計算語句概率的模型，概率值越高，語言模型越好，困惑度越小。

平均長度（Average Length）：指的是生成回復的平均長度，普遍認為生成長句子的對話生成模型相對質(zhì)量更高。

單次平均對話輪數(shù)（Conversation-turns Per Session，CPS）：指的是聊天機器人和用戶之間的每次對話中所含對話輪數(shù)的平均值[7]。一般用來對閑聊型聊天機器人進行評價，CPS越大，說明聊天機器人的社交參與程度越高。

對話時間：指用戶與聊天機器人的對話所持續(xù)的時間。

（3）需要參考回復——基于詞重疊

基于詞語重疊的評價方法需要有參考回復，主要是根據(jù)參考回復與生成回復之間詞語的重疊程度來進行度量。

BLEU：全稱為BiLingual Evaluation Understudy[8]，最早用于機器翻譯任務，評價前提是需要語料庫中有高質(zhì)量的參考回復，核心思想是比較生成回復文本和參考回復文本中N-gram的重合程度，重合程度越高則認為文本質(zhì)量越高。N一般取1—4，然后進行加權平均，時用于衡量單詞翻譯的準確性，時用于衡量句子的流暢性。隨后優(yōu)化改進出了多種新的評價指標。雖然近年來BLEU被證明與人工判斷的相關性不高[9]，但目前仍然是聊天機器人評估常用的指標。

NIST：全稱是National Institute of Standards and Technology[10]，改進自BLEU方法，引入了每個N-gram的信息量的概念，定義見公式（7）。公式中分母表示N-gram在參考回復中出現(xiàn)的次數(shù)，分子表示對應的（N-1）-gram在參考回復中出現(xiàn)的次數(shù)，當時，分子取值為整個參考回復的長度。由此，將一些出現(xiàn)較少的重點詞的權重增大。

ROUGE：全稱是Recall-Oriented Understudy for Gisting Evaluation，改進自BLEU方法，不同于BLEU，它專注于衡量N-gram的召回率，而不是準確率。通常使用的有ROUGE-N[11]和ROUGE-L[12]。ROUGE-N通過統(tǒng)計參考回復中N-gram的個數(shù)與參考回復和生成回復中共有的N-gram個數(shù)來計算召回率。

METEOR：全稱為Metric for Evaluation of Translation with Explicit ORdering[13]，該指標同時考慮了準確率和召回率，其中召回率的權重更高。將生成回復與參考回復之間的Uni-grams通過簡單的映射進行對齊，可進行詞干提取和精確的單詞匹配，從而計算得到特定的匹配關系，與人類判斷有較好的相關性。

（4）需要參考回復——基于詞向量

不同于基于詞重疊（即利用N-gram計算生成回復和參考回復之間的重合程度）的方式，基于詞向量的評價方式則是利用Word2Vec、Sent2Vec等方法把回復表示為句向量，再通過余弦相似性等方法計算生成回復與參考回復之間的相似程度。

貪婪匹配（Greedy Matching）：本質(zhì)是計算兩個語句的相似性。該方法分別將生成回復和參考回復中的每個詞轉(zhuǎn)換為詞向量，然后對參考回復中每個詞向量，計算其在生成回復中與每個詞向量的余弦相似度，取最高的余弦相似度將其相加并求平均，最后再對生成回復進行相同流程的計算，取兩者平均值。

平均匹配（Embedding Average）：使用句向量計算生成回復和參考回復的余弦相似度。句向量由語句中每個詞向量相加再取平均值得到。

向量極值（Vector Extrema）：同樣基于句向量計算兩個語句的相似性，但句向量由詞向量每個維度中極值最大的一維構成，然后再計算余弦相似度。這種方法可以忽略語句中的常見表達，保留特殊的重要語義詞語[14]。

（5）需要參考回復——基于深度學習

近幾年，深度學習快速發(fā)展，針對基于深度學習進行生成回復評價的研究也逐漸增多。以下是幾種典型的應用深度學習進行生成回復評價的方法。

ADEM：全稱為Automatic Dialogue Evaluation Model[15]，即對話系統(tǒng)自動評價模型，它將對話系統(tǒng)的評價問題轉(zhuǎn)換為預測回復語句的人工評分問題，收集人類對對話語料進行評分的數(shù)據(jù)集，訓練使用循環(huán)神經(jīng)網(wǎng)絡（RNN）構建自動評價模型。雖然文章指出這種方法效果要好于BLEU、ROUGE，但后續(xù)研究表明ADEM存在明顯的缺陷，其分配給各種回復的分值分布在范圍內(nèi)，分辨力較低，無法為多個回復提供合適的評分，仍需要改進[16]。

RUBER：全稱為Referenced metric and Unreferenced metric Blended Evaluation Routine[17]，是一種針對開放域?qū)υ捪到y(tǒng)的無監(jiān)督自動評估方法，不需要人工評分數(shù)據(jù)。其主要思想是將有參考回復評估和無參考回復評估以不同的策略結合起來以提高評估性能。有參考回復評估采用詞向量池化的方法，選擇詞向量每個維度的最大值和最小值來代表語句，然后計算余弦相似度;無參考回復評估通過訓練神經(jīng)網(wǎng)絡模型來衡量生成回復和對應查詢之間的匹配程度。實驗表明，RUBER可擴展到不同數(shù)據(jù)集中，且與人工評價具有一定的相關性。

GAN-based：生成式對抗網(wǎng)絡（Generative Adversarial Network，GAN）通常應用于圖像生成任務中，受其啟發(fā)產(chǎn)生了基于GAN結構的對話系統(tǒng)評價模型，使用生成器生成回復，判別器區(qū)分生成回復和參考回復。

BERTScore：一種基于Bert的生成回復評估方法[18]。給定一個參考回復和生成回復，使用Bert來提取輸入每個單詞的上下文特征，表示為帶有上下文信息的詞向量，然后使用余弦相似度計算每兩個詞向量之間的匹配相似度。使用貪婪匹配來最大化匹配相似度得分，選擇性地使用逆文檔頻率分數(shù)對詞向量進行重要性加權。實驗表明，BERTScore取得了比一般指標更好的相關性，并且對于模型選擇有一定效果，但是沒有一種BERTScore配置明顯優(yōu)于其他所有配置。

3.2? ?圖像描述生成評估

人們在社交聊天中經(jīng)常會圍繞圖片展開交流和討論，圖片中所體現(xiàn)的事物、事件、氛圍或感情通常是人們討論的主要內(nèi)容。圖像描述生成技術便是為了能夠自動生成能真實全面地表現(xiàn)圖片中發(fā)生事件以及反映出的感情的描述，運用到的技術實際上是計算機視覺（Computer Vision，CV）和自然語言處理的結合，通過CV技術分析圖像內(nèi)容，利用NLP技術生成相對應的文字來描述圖像中明顯的特征。生成對話的評估方法大多數(shù)能直接用于圖像描述生成的評估，除此以外，CIDEr和SPICE是專門用于圖像描述生成的評估方式。

CIDEr：全稱是Consensus-based Image Description Evaluation[19]，即基于共識的圖像描述評估。其主要思想是利用TF-IDF計算得到生成回復和參考回復的不同N-gram的權重，將在數(shù)據(jù)集中比較常見、包含較小信息量的N-gram權重調(diào)低，然后計算生成回復與參考回復的余弦相似度，再對每個N-gram的相似度加和求平均值，得到最終的CIDEr評估值。

SPICE：全稱是Semantic Propositional Image Caption Evaluation[20]，即語義命題圖像描述評估。不同于CIDEr利用詞語重疊進行評估，SPICE通過建立場景圖（Scene Graphs）來對圖像描述中的對象、屬性和關系進行編碼。首先利用PCFG依賴解析器把要評估的圖像描述轉(zhuǎn)換為語法依賴樹;然后根據(jù)九種簡單的語言規(guī)則把生成的語法依賴樹映射到場景圖;再把場景圖中的語義關系看作對象、屬性和關系構成的元組，計算生成回復和參考回復的元組之間的F值作為最終的SPICE評估值。

3.3? ?任務導向型評估

任務導向型聊天機器人通常應用于特定的情景和場所中，面向特定領域，主要是一些為用戶提供信息或任務導覽等服務來滿足用戶明確需求的機器人。目前這類機器人在訂餐、訂票、訂酒店、商品咨詢、業(yè)務辦理等方面應用較多。雖然任務導向型聊天機器人也可以用準確率、召回率等評價對話質(zhì)量的標準來評估，但更多地需要從整體來對產(chǎn)品進行評價。

任務成功率：指成功解決用戶問題的對話所占比例，如票務系統(tǒng)為用戶成功訂票次數(shù)占全部訂票需求數(shù)量的比例。

單次任務平均對話輪數(shù)：與前文中的單次平均對話輪數(shù)（CPS）不同，任務導向型聊天機器人講求效率，需要在盡可能少的對話輪數(shù)內(nèi)解決問題，所以對話越簡潔、越明確，越能為用戶提供更好的服務。

用戶留存：好的產(chǎn)品需要不斷地迭代更新，與此同時，用戶往往是流動的。用戶留存率可以讓開發(fā)者更清晰地看到更新前后一段時間內(nèi)的用戶留存狀態(tài)，從而對產(chǎn)品的優(yōu)化提供反饋。

用戶活躍度：用戶活躍度指的是頻繁使用產(chǎn)品的用戶所占比例，即會頻繁地使用任務導向型聊天機器人進行相關服務的用戶所占比例，用戶活躍度越高，側面說明機器人的任務完成得越好，越能滿足用戶要求。

4? 研究難點與未來發(fā)展方向（Research difficulties and future development direction）

4.1? ?研究難點

隨著近幾年相關技術的發(fā)展，尤其是深度學習的逐漸成熟，聊天機器人技術也在快速發(fā)展，但仍存在著諸多難點。

（1）對話技術依舊不成熟

目前在某些封閉域方面，聊天機器人可以很好地與用戶進行溝通，比如購票系統(tǒng)等。但當聊天范圍逐漸擴大到開放領域，即用戶希望與聊天機器人閑聊時，聊天機器人的回答就會變得粗糙。這就是目前技術的瓶頸，即如何讓聊天機器人在與用戶進行無特定范圍的開放域聊天時，能做出合理回復。聊天機器人需要數(shù)據(jù)集來反復訓練，一旦用戶期望的對話內(nèi)容沒有在訓練數(shù)據(jù)集中體現(xiàn)，聊天機器人就無法給出合理的回答，然后給出“我不知道”等搪塞用戶的敷衍回答。

（2）人類和聊天機器人對話的心理問題

恐怖谷理論說明，當機器人的外貌和人類極其相似的時候，人類會對它產(chǎn)生非常強烈的厭惡情緒。在對話方面，人類也有類似心理，即當聊天機器人的回答內(nèi)容過于真實或表現(xiàn)出過于透徹的了解時，會使用戶產(chǎn)生隱私被窺視的感受，用戶可能會產(chǎn)生厭惡心理。這種現(xiàn)象是十分矛盾的，算法的設計需要聊天機器人的回答內(nèi)容趨向于真實自然，并且以對用戶信息的了解為基礎才能生成個性化對話內(nèi)容;但是表現(xiàn)得過于真實與了解就可能使用戶產(chǎn)生反感，甚至出現(xiàn)侵犯隱私問題。

（3）聊天機器人的個性選取

對于同一個問題，不同的人會有不同的回答，這取決于每個人的個性，聊天機器人也一樣。目前主流的聊天機器人個性設置都是溫柔、耐心等，但由于暴力、色情等不良內(nèi)容很容易出現(xiàn)在聊天機器人的訓練數(shù)據(jù)集中，導致聊天機器人的個性并不能完全被控制。另一方面，某些用戶在與聊天機器人對話的過程中可能表現(xiàn)出一些心理問題，聊天機器人如何疏導用戶，幫助其調(diào)整心態(tài)，而不是加重其心理問題是目前技術暫時無法突破的難點。

（4）聊天機器人所需計算資源較大

深度學習讓聊天機器人的魯棒性有了很大的飛躍，但同時也帶來了巨大的計算資源的需求。尤其是現(xiàn)在聊天功能的需求廣泛，網(wǎng)頁端、移動端等沒有太多計算資源的邊緣設備，都需要后臺服務器輔助計算。對此問題，輕量化聊天機器人的算法、對算法的蒸餾等，仍需要更多的研究和應用。

（5）需要“大規(guī)模”和“有質(zhì)量”的語料庫

語料庫，即聊天機器人的訓練數(shù)據(jù)集，是機器人學習說話的來源，對于回答的質(zhì)量非常關鍵。“大規(guī)?！敝傅氖钦Z料庫內(nèi)容要多，涉及方方面面，才能讓機器人無所不知;“有質(zhì)量”指語料庫的內(nèi)容要可靠，不能有不良信息，也不能有答非所問的內(nèi)容，這樣的語料庫才能訓練出優(yōu)秀的聊天機器人。而現(xiàn)實是，一方面高效獲得語料庫是一個難點問題;另一方面即使找到現(xiàn)有的語料庫，目前最多的訓練用語料庫都是以成億計，語料的內(nèi)容也是良莠不齊，高質(zhì)量語料篩選工作也是一個難點問題。

（6）自動評估與人工評估相關性較差

生成回復的自動評價一直是聊天機器人評估領域探索的重點內(nèi)容，也是難點內(nèi)容。由于自動評價與人工評價的相關性一直不高，尤其是現(xiàn)有的自動評價方法很多都來源于機器翻譯等其他領域，對生成回復的語義多樣性能否進行評價，以及對模型的有效性和優(yōu)化反饋能否起到作用等問題一直存在爭議。

4.2? ?發(fā)展方向

未來聊天機器人的發(fā)展方向?qū)②呄蛴诔墒斓膶υ捝赡Ｐ陀柧毢湍Ｐ洼p量化。目前聊天機器人的回答依然存在答非所問等問題，未來的發(fā)展方向必然需要向增強對話生成的魯棒性和合理性前進。另一方面，計算輕量化的需求也日益增長，即能夠在計算能力較弱的機器人中部署需求，這是當今聊天機器人應用場景與應用設備日益擴張的必然要求。

5? ?結論（Conclusion）

目前，進入市場并產(chǎn)品化的聊天機器人主要是功能導向型聊天機器人，產(chǎn)品形式主要是嵌入PC端與手機端應用的問詢功能模塊、實體化的問詢功能機器人和智能語音音箱等智能家居。當前相關產(chǎn)業(yè)已經(jīng)較為成熟，產(chǎn)品也逐漸趨同，評價精度方面并無較大進展。處于研究階段的大規(guī)模開放域的訓練模型，訓練參數(shù)逐漸增多，模型體量逐漸增大，發(fā)展空間與潛力較大。但這些模型質(zhì)量參差不齊，對其進行有效精準的評價十分重要。本文在實現(xiàn)功能和實現(xiàn)技術兩方面對聊天機器人進行了分類，從多方面對評價標準進行了較為系統(tǒng)的介紹、分析與總結，提出了目前聊天機器人技術的研究難點與未來的發(fā)展方向。希望能夠為目前聊天機器人的分類和評價標準構建出一個較為完整的全局概覽圖，為相關研究人員提供一定參考和借鑒。

參考文獻（References）

[1] 陳晨，朱晴晴，嚴睿，等.基于深度學習的開放領域?qū)υ捪到y(tǒng)研究綜述[J].計算機學報，2019，042（007）：1439-1466.

[2] 戴怡琳，劉功申.智能聊天機器人的技術綜述[J].計算機科學與應用，2018，8（6）：918-929.

[3] Li M， Weston J， Roller S. ACUTE-EVAL： Improved dialogue evaluation with optimized questions and multi-turn comparisons[DB/OL]. [2019-09-06]. https：//arxiv.org/pdf/1909.03087.pdf.

[4] Zhang Y， Galley M， Gao J， et al. Generating informative and diverse conversational responses via adversarial information maximization[C]. Proceedings of the 32nd International Conference on Neural Information Processing Systems， 2018： 1815-1825.

[5] Tevet G， Berant J. Evaluating the evaluation of diversity in natural language generation[DB/OL]. [2020-04-26]. https：//arxiv.org/pdf/2004.02990v2.pdf.

[6] Li J， Galley M， Brockett C， et al. A diversity-promoting objective function for neural conversation models[C]. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies， 2016：110-119.

[7] Zhou L， Gao J， Li D， et al. The design and implementation of XiaoIce， an empatheic social chatbot[J]. Computational Linguistics， 2020， 46（1）：53-93.

[8] Papineni K， Roukos S， Ward T， et al. BLEU： a method for automatic evaluation of machine translation[C]. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics， 2002：311-318.

[9] Liu C W， Lowe R， Serban I V， et al. How not to evaluate your dialogue system： An empirical study of unsupervised evaluation metrics for dialogue response generation[DB/OL]. [2017-01-03]. https：//arxiv.org/pdf/1603.08023v2.pdf.

[10] Doddington G. Automatic evaluation of machine translation quality using N-gram co-occurence statistics[C]. Proceedings of the second international conference on Human Language Technology Research， 2002：138-145.

[11] Lin C Y， Hovy E. Automatic evaluation of summaries using N-gram co-occurrence statistics[C]. Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology， 2003：71-78.

[12] Lin C Y， Och F J. Automatic evaluation of machine translation quality using longest common subsequence and skip-bigram statistics[C]. Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics （ACL-04）， 2004： 605-612.

[13] Banerjee S， Lavie A. METEOR： An automatic metric for MT evaluation with improved correlation with human judgments[C]. Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization， 2005：65-72.

[14] 張偉男，張楊子，劉挺.對話系統(tǒng)評價方法綜述[J].中國科學：信息科學，2017，47（08）：953-966.

[15] Lowe R， Noseworthy M， Serban I V， et al. Towards an automatic turing test： Learning to evaluate dialogue responses[C]. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics （Volume 1： Long Papers）， 2017：1116-1126.

[16] Sai A B， Gupta M D， Khapra M M， et al. Re-evaluating ADEM： A deeper look at scoring dialogue responses[C]. Proceedings of the AAAI Conference on Artificial Intelligence， 2019， 33：6220-6227.

[17] Tao C Y， Mou L， Zhao D Y， et al. RUBER： An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems[C]. The Thirty-Second AAAI Conference on Artificial Intelligence （AAAI-18）， 2018， 32（1）：722-729.

[18] Zhang T， Kishore V， Wu F， et al. BERTScore： Evaluating text generation with BERT[DB/OL]. [2020-02-24]. https：//arxiv.org/pdf/1904.09675.pdf.

[19] Vedantam R， Zitnick C L， Parikh D. CIDEr： Consensus-based Image Description Evaluation[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2015：4566-4575.

[20] Anderson P， Fernando B， Johnson M， et al. SPICE： Semantic Propositional Image Caption Evaluation[J]. Adaptive Behavior， 2016， 11（4）：382-398.

作者簡介：

王艷秋（1993-），女，碩士，初級研究員.研究領域：人工智能，數(shù)據(jù)挖掘.

管浩言（1994-），男，碩士，初級研究員.研究領域：人工智能，計算機視覺.

張? 彤（1994-），女，碩士，初級研究員.研究領域：人工智能，圖像處理.

軟件工程2021年2期

軟件工程的其它文章: 精彩導讀; 校園服務智能應答機器人的研究與實現(xiàn); 任務型對話機器人的設計及其應用; 基于大數(shù)據(jù)面板的融點學習平臺的設計與開發(fā); 一種對話機器人開發(fā)技術綜述與系統(tǒng)架構實現(xiàn); 基于知識圖譜問答系統(tǒng)的技術實現(xiàn)