李 菁,張海松,宋 彥
(騰訊AI Lab,廣東 深圳 518052)
自從圖靈測(cè)試構(gòu)想誕生[1]以來(lái),構(gòu)建能夠自然地與人類溝通的交互系統(tǒng)便成為了人工智能的使命之一,尤其是人機(jī)交互的前端——自然語(yǔ)言對(duì)話系統(tǒng)更是被期待著承擔(dān)連接人與機(jī)器的重任。近年來(lái),隨著人工智能相關(guān)技術(shù)的突破以及大量真實(shí)對(duì)話數(shù)據(jù)的產(chǎn)生,對(duì)話系統(tǒng)的相關(guān)研究也隨之增加。很多在真實(shí)應(yīng)用中涌現(xiàn)出的對(duì)話系統(tǒng)不但成為了我們?nèi)粘I钪械谋貍涔ぞ?,更吸引了學(xué)術(shù)界的廣泛關(guān)注,例如,蘋(píng)果Siri[2]、谷歌smart reply[3]、微軟小冰[4]等??傮w來(lái)說(shuō),在功能層面上,現(xiàn)有的對(duì)話系統(tǒng)可以分為兩大類,即任務(wù)導(dǎo)向型對(duì)話系統(tǒng)[5]和非任務(wù)導(dǎo)向型聊天機(jī)器人[6]。其中,任務(wù)導(dǎo)向型對(duì)話系統(tǒng)對(duì)對(duì)話應(yīng)用的任務(wù)場(chǎng)景做了一定程度的限制,旨在幫助人們完成特定任務(wù),例如,訂票交互系統(tǒng)幫助用戶購(gòu)買(mǎi)機(jī)票的服務(wù)[7]、圖書(shū)館交互系統(tǒng)回答用戶關(guān)于圖書(shū)信息的咨詢[8]等。相比之下,非任務(wù)導(dǎo)向的聊天機(jī)器人更加側(cè)重閑聊功能,這種類型的對(duì)話系統(tǒng)不會(huì)對(duì)對(duì)話場(chǎng)景和主題做任何限制,因此聊天主題相對(duì)更加多樣化,話題覆蓋程度比任務(wù)型對(duì)話系統(tǒng)更加廣泛。
以往的人機(jī)交互系統(tǒng),例如,Eliza[9]、Parry[10]和Alice[11]都使用基于規(guī)則和模板的方法。這類方法在早期的對(duì)話系統(tǒng)中十分流行,然而,規(guī)則和模板的設(shè)計(jì)需要消耗大量人力,很難覆蓋多樣化的對(duì)話主題?,F(xiàn)今的對(duì)話系統(tǒng)中,應(yīng)用最廣的是數(shù)據(jù)驅(qū)動(dòng)型對(duì)話系統(tǒng),這種對(duì)話系統(tǒng)不依賴于人總結(jié)的規(guī)則,完全從數(shù)據(jù)中學(xué)習(xí)如何回復(fù)用戶的問(wèn)題,可以在很大程度上緩解規(guī)則系統(tǒng)所需要的人力和資源[12]。然而,訓(xùn)練一個(gè)數(shù)據(jù)驅(qū)動(dòng)型對(duì)話系統(tǒng)往往需要大量的對(duì)話數(shù)據(jù)。為了解決這種數(shù)據(jù)需求,以往的工作傾向于從社交媒體中收集用戶產(chǎn)生的交互文本[注]在社交媒體等場(chǎng)景下,用戶對(duì)其他公開(kāi)用戶發(fā)表的某些狀態(tài)或者評(píng)論等進(jìn)行相應(yīng)的回復(fù),以此產(chǎn)生的文本我們稱之為交互文本。更一般地,任何用戶相互之間進(jìn)行交流產(chǎn)生的文本都可以被認(rèn)為是交互文本。用于訓(xùn)練對(duì)話系統(tǒng)[13],原因有如下幾個(gè)方面: 其一,社交媒體的數(shù)據(jù)完全公開(kāi),易于收集和獲??;其二,社交媒體對(duì)文本的長(zhǎng)度做了限制,例如,新浪微博[注]https: //weibo.com上單條信息的長(zhǎng)度不超過(guò)140個(gè)字,這些文本的長(zhǎng)度比較接近對(duì)話中的文本長(zhǎng)度,因此比較適合被用于學(xué)習(xí)對(duì)話回復(fù);其三,社交媒體的文本往往產(chǎn)生自不同的人,天然地構(gòu)成了對(duì)話形態(tài)的文本組織方式;其四,社交媒體的語(yǔ)言風(fēng)格緊跟潮流,能夠比較與時(shí)俱進(jìn)地反映當(dāng)前的語(yǔ)言使用現(xiàn)狀。
然而,通過(guò)社交媒體收集的數(shù)據(jù)也會(huì)直接受到社交媒體平臺(tái)帶來(lái)的負(fù)面影響,包括諸如信息噪聲大(包含廣告等)、不符合規(guī)范、有效信息量小等問(wèn)題。例如,在新浪微博上,針對(duì)用戶的對(duì)話問(wèn)題: “我超愛(ài)吃蘋(píng)果?。?!”,我們?cè)诒?中展示了幾個(gè)用戶回復(fù)的樣例。其中第一個(gè)回復(fù)是一個(gè)針對(duì)RPG游戲的廣告而不是直接回復(fù)原始微博的問(wèn)題,這在社交媒體中廣泛存在,屬于噪聲數(shù)據(jù),這樣的回復(fù)與問(wèn)題完全無(wú)關(guān),屬于偏離了主題的極差回復(fù)類型。第二個(gè)回復(fù)雖然包含問(wèn)題中的關(guān)鍵詞“蘋(píng)果”,但是與問(wèn)題的配合看來(lái)顯得并不通順連貫,屬于較差的回復(fù)類型。第三個(gè)回復(fù)雖然通順自然,卻屬于在社交媒體上廣泛存在的一類“萬(wàn)能回復(fù)”[14],可以應(yīng)對(duì)多種不同類型的問(wèn)題,因此在內(nèi)容上針對(duì)特定問(wèn)題并不具備多少信息量[注]由于社交媒體上通用回復(fù)的普遍性,以往通過(guò)社交媒體語(yǔ)料訓(xùn)練的聊天機(jī)器人,往往傾向于生成類似的“萬(wàn)能回復(fù)”,妨礙聊天的正常進(jìn)行。因此,通用回復(fù)與更高質(zhì)量的回復(fù)需要被有效地區(qū)分。。第四個(gè)回復(fù)被認(rèn)是極好的回復(fù),因?yàn)槠洳粌H主題相關(guān)、自然連貫地回復(fù)問(wèn)題,且其中包含的俗語(yǔ)表達(dá)提供了“蘋(píng)果有益身體健康”的豐富信息,還具備一定程度的趣味性。上述實(shí)例表明,不同回復(fù)的質(zhì)量很大程度上決定了一個(gè)對(duì)話進(jìn)程的持續(xù)能力和用戶體驗(yàn)。因此,對(duì)話系統(tǒng)需要有效區(qū)分不同質(zhì)量的回復(fù)。尤其對(duì)于數(shù)據(jù)驅(qū)動(dòng)型的對(duì)話系統(tǒng),回復(fù)數(shù)據(jù)的標(biāo)準(zhǔn)化質(zhì)量標(biāo)注顯得非常重要,可以有效助益對(duì)話系統(tǒng)的回復(fù)生成[15]能力和效果評(píng)估[16-17]。然而,目前相關(guān)研究有限,并且高質(zhì)量有效標(biāo)注的語(yǔ)料較為稀缺,在中文對(duì)話領(lǐng)域基本沒(méi)有類似的工作發(fā)表,明顯阻礙了該領(lǐng)域相應(yīng)工作的推進(jìn)。
表1 新浪微博上的問(wèn)題和它的樣例回復(fù)及其對(duì)應(yīng)標(biāo)準(zhǔn)分析
為了完善當(dāng)前對(duì)話系統(tǒng)研究,并且為學(xué)界提供有效的公開(kāi)標(biāo)注數(shù)據(jù),在本文所述的工作中,我們構(gòu)建了一個(gè)大規(guī)模的人工標(biāo)注對(duì)話數(shù)據(jù)集,其中包含超過(guò)27 000個(gè)中文問(wèn)題及其對(duì)應(yīng)的82 000條回復(fù)(每個(gè)問(wèn)題可能對(duì)應(yīng)多個(gè)回復(fù))。本文從問(wèn)題和回復(fù)的相關(guān)性、連貫性、信息性、趣味性等維度提出五級(jí)人工標(biāo)注評(píng)分標(biāo)準(zhǔn): 極差的、較差的、一般的、較好的、極好的??紤]到多數(shù)以往工作主要集中使用未標(biāo)注數(shù)據(jù)和自動(dòng)標(biāo)注數(shù)據(jù),據(jù)了解,本文所述的工作是首次為非任務(wù)導(dǎo)向的對(duì)話系統(tǒng)構(gòu)建人工標(biāo)注中文數(shù)據(jù)集。同時(shí),為了對(duì)比分析,在該數(shù)據(jù)集的基礎(chǔ)上,我們使用不同的對(duì)話回復(fù)選擇模型嘗試了多組基礎(chǔ)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明本文提出的人工標(biāo)注數(shù)據(jù)集可以有效驅(qū)動(dòng)對(duì)話系統(tǒng)選擇較高質(zhì)量的回復(fù)。
本文與非任務(wù)型對(duì)話系統(tǒng)緊密相關(guān)。通常,非任務(wù)型對(duì)話系統(tǒng)可以分為兩個(gè)不同類別: 規(guī)則驅(qū)動(dòng)型對(duì)話系統(tǒng)和數(shù)據(jù)驅(qū)動(dòng)型對(duì)話系統(tǒng)。規(guī)則驅(qū)動(dòng)型對(duì)話系統(tǒng)主要出現(xiàn)在對(duì)話系統(tǒng)研究的早期,利用人工制定的規(guī)則或模板來(lái)構(gòu)建對(duì)話系統(tǒng)。核心的方法包括關(guān)鍵詞匹配[18]、槽位填充(slot filling)[19]和模板填空[20]等。但是這類方法一方面需要耗費(fèi)大量人力,另一方面在使用時(shí)也存在缺陷,主要原因是非任務(wù)型對(duì)話系統(tǒng)中,回復(fù)的可能性太多,以致無(wú)法被有限的規(guī)則總結(jié)。
數(shù)據(jù)驅(qū)動(dòng)型對(duì)話系統(tǒng)的蓬勃發(fā)展獲益于在線數(shù)據(jù)的大量產(chǎn)生。當(dāng)前,大規(guī)模人人對(duì)話數(shù)據(jù)已經(jīng)易于獲得,這在很大程度上推動(dòng)了各類對(duì)話系統(tǒng)模型和算法的發(fā)展。這類對(duì)話系統(tǒng)主要利用機(jī)器學(xué)習(xí)的算法,通過(guò)引入少量的人工特征[13,21]、或者完全自動(dòng)的特征學(xué)習(xí)[22-23]從真實(shí)的對(duì)話數(shù)據(jù)中學(xué)習(xí)類似人人交互方式的對(duì)話行為。數(shù)據(jù)驅(qū)動(dòng)型對(duì)話系統(tǒng)不僅極大降低了對(duì)人力和資源的需求,而且相比于規(guī)則驅(qū)動(dòng)型對(duì)話系統(tǒng)更能保證對(duì)話回復(fù)的多樣性。
因此,為了保證數(shù)據(jù)驅(qū)動(dòng)型對(duì)話系統(tǒng)的性能,收集和整理大規(guī)模、高質(zhì)量的對(duì)話數(shù)據(jù)集變得尤為重要。以往的工作主要通過(guò)自動(dòng)[23-24]或半自動(dòng)[13,25]的方法構(gòu)建數(shù)據(jù)集,保證這些方法有效的基本前提是收集的原始數(shù)據(jù)集已經(jīng)擁有了比較高的質(zhì)量。然而,由于社交媒體是當(dāng)前對(duì)話數(shù)據(jù)集的主要來(lái)源[23],其質(zhì)量良莠不齊,因此引入人工標(biāo)注提高數(shù)據(jù)質(zhì)量十分重要。據(jù)我們了解,本文介紹的工作是構(gòu)建第一個(gè)中文大規(guī)模人工標(biāo)注對(duì)話數(shù)據(jù)集,有效填補(bǔ)以往工作在非任務(wù)驅(qū)動(dòng)型對(duì)話系統(tǒng)數(shù)據(jù)集方面的空白。
本文提出的數(shù)據(jù)集所包含的問(wèn)題和答案對(duì)(簡(jiǎn)稱問(wèn)答對(duì))收集自社交媒體上真實(shí)用戶對(duì)話中的問(wèn)題和回復(fù),從包括百度貼吧[注]https: //tieba.baidu.com、百度知道[注]https: //zhidao.baidu.com、豆瓣[注]https: //www.douban.com、新浪微博等社交媒體站點(diǎn)通過(guò)網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行收集。上述網(wǎng)站是中文社區(qū)較為流行的社交媒體平臺(tái),在這些平臺(tái)上用戶進(jìn)行交互式討論的主題具有多樣性和高覆蓋性等特點(diǎn)。這些數(shù)據(jù)的收集過(guò)程如下: 首先,我們從各個(gè)平臺(tái)的索引頁(yè)面提取主題列表信息,例如,明星、娛樂(lè)、軍事、體育、游戲等[注]我們從這些不同網(wǎng)站上抽取的主題列表具有比較高的相似性。;接著,我們使用Jsoup[注]https: //jsoup.org/工具抓取各主題頁(yè)面,并且對(duì)每個(gè)頁(yè)面進(jìn)行HTML解析,以此提取問(wèn)題和對(duì)應(yīng)回復(fù)的文字。
原始數(shù)據(jù)收集完畢之后,我們采取兩個(gè)步驟進(jìn)行數(shù)據(jù)預(yù)處理,以便于后續(xù)的人工標(biāo)注工作。第一步進(jìn)行敏感信息過(guò)濾,處理如臟話、成人內(nèi)容、披露隱私等敏感數(shù)據(jù)。該操作的目的是避免任何使用本文提供的語(yǔ)料進(jìn)行訓(xùn)練或者評(píng)估的聊天機(jī)器人產(chǎn)生使人不適的回復(fù)或者公開(kāi)用戶的隱私。第二步則聚焦于辨別和過(guò)濾帶有知識(shí)依賴的問(wèn)題。由于帶有知識(shí)依賴的問(wèn)題對(duì)應(yīng)的答案有領(lǐng)域和場(chǎng)景的局限性,通常僅針對(duì)特定知識(shí),所以很可能在對(duì)話過(guò)程中產(chǎn)生不適合當(dāng)前條件的回答,例如,“今天北京天氣如何?”“明天皇馬對(duì)利物浦的比賽幾點(diǎn)開(kāi)始?”等。因此為了避免在后續(xù)對(duì)話或評(píng)測(cè)中出現(xiàn)回復(fù)無(wú)法匹配場(chǎng)景的問(wèn)題,我們需要將知識(shí)相關(guān)的問(wèn)題和回復(fù)進(jìn)行過(guò)濾。為了完成上述兩步預(yù)處理,我們聘請(qǐng)了四位有經(jīng)驗(yàn)的標(biāo)注人員進(jìn)行人工過(guò)濾。
完成原始數(shù)據(jù)的準(zhǔn)備和整理工作后,我們聘請(qǐng)了四位標(biāo)注人員對(duì)所有回復(fù)文本根據(jù)表2所示的5個(gè)等級(jí)標(biāo)準(zhǔn)進(jìn)行等級(jí)評(píng)定。其中,質(zhì)量標(biāo)準(zhǔn)從等級(jí)1到等級(jí)5,分別對(duì)應(yīng)“極差的”“較差的”“一般的”“較好的”“極好的”回復(fù)。對(duì)于每個(gè)回復(fù),我們保證有兩位標(biāo)注人員分別進(jìn)行獨(dú)立評(píng)分。詳細(xì)的評(píng)分等級(jí)及說(shuō)明列于表2(a)。同時(shí)為了更好理解標(biāo)注標(biāo)準(zhǔn),表2(b)通過(guò)8個(gè)類型的數(shù)據(jù)樣例說(shuō)明各個(gè)評(píng)分等級(jí)的區(qū)別。
如表2所示,“極差的”回復(fù)指那些無(wú)意義的(例如[S1])或者與問(wèn)題不相關(guān)的(例如[S2])回復(fù)?!拜^差的”回復(fù)可能與問(wèn)題存在一定的相關(guān)性,但是在與問(wèn)題的一致性、連貫性等方面有所欠缺,例如僅提到少量關(guān)鍵詞(例如[S3])或者簡(jiǎn)單地重復(fù)問(wèn)題中的片段(例如[S4])等?;貜?fù)的內(nèi)容如果處在“極差的”或“較差的”評(píng)分等級(jí),那么可以認(rèn)為是低于一般水平的回復(fù)類型。
表2 對(duì)話問(wèn)答對(duì)語(yǔ)料標(biāo)注標(biāo)準(zhǔn)
注: [Si]是一些樣例回復(fù)。<等級(jí)i>是樣例回復(fù)對(duì)應(yīng)的評(píng)分等級(jí),類型是根據(jù)回復(fù)質(zhì)量進(jìn)行的解釋。
“一般的”評(píng)分等級(jí)可以認(rèn)為是達(dá)到“及格”水準(zhǔn)的回復(fù)質(zhì)量。具有該等級(jí)評(píng)分的回復(fù)必須是內(nèi)容有意義、前后銜接流暢并且與問(wèn)題相關(guān)的特點(diǎn)。在“一般的”評(píng)分等級(jí)下,有兩種典型的回復(fù)類型: 其一,回復(fù)的內(nèi)容有時(shí)間或者空間上的限制;其二,萬(wàn)能回復(fù)。對(duì)于第一類回復(fù),回復(fù)的適合程度被限定在特定的時(shí)間或者空間條件下。例如,實(shí)例[S5]在冬天看來(lái),可以認(rèn)為是一個(gè)合適的回復(fù);然而,如果正處炎炎夏日,那么該回復(fù)就顯得不合時(shí)宜了。對(duì)于萬(wàn)能回復(fù),盡管它們沒(méi)有時(shí)空上的限制,但是由于太過(guò)于通用,故而不能為提出的問(wèn)題提供有效信息,例如[S6]。這類回復(fù)可以適用于多種不同類型的問(wèn)題,前面提到,正因?yàn)檫@個(gè)特點(diǎn),它們?cè)谑占恼Z(yǔ)料中廣泛存在。為了有效區(qū)分這類回復(fù)和高質(zhì)量回復(fù),我們把萬(wàn)能回復(fù)定義為“一般的”而不是“較好的”或者“極好的”回復(fù)。
最后,等級(jí)4所對(duì)應(yīng)的“較好的”回復(fù)往往是比較自然的、貼切的,既沒(méi)有時(shí)空上的限制,也沒(méi)有萬(wàn)能回復(fù)的特性,例如[S7]這類回復(fù)。而等級(jí)5所對(duì)應(yīng)的“極好的”回復(fù)則可以更進(jìn)一步,在回復(fù)中具備豐富的信息、幽默有趣,并能夠有效促進(jìn)對(duì)話過(guò)程往后推進(jìn),樣例[S8]就是一個(gè)“極好的”回復(fù),因?yàn)榛貜?fù)中提出了“北京的酒店”這一新的話題,因而積極地推動(dòng)了對(duì)話的延續(xù)。
由于數(shù)據(jù)集中的每個(gè)問(wèn)答對(duì)都有兩位標(biāo)注人員進(jìn)行標(biāo)注,因此我們選擇當(dāng)且僅當(dāng)他們的評(píng)分等級(jí)完全一致或差異為1時(shí)的相應(yīng)的問(wèn)答對(duì)進(jìn)入最終的數(shù)據(jù)集合,最終符合該條件的問(wèn)答對(duì)共有82 010對(duì)。對(duì)于每個(gè)入選的問(wèn)答對(duì),我們選取兩位標(biāo)注人員的平均分作為最終的回復(fù)評(píng)分。最終數(shù)據(jù)集包含27 383個(gè)問(wèn)題以及82 010條回復(fù),每個(gè)問(wèn)題包含不同數(shù)量的回復(fù),從1到20不等。在最終產(chǎn)生的數(shù)據(jù)集中問(wèn)題回復(fù)數(shù)量的分布(百分比)如圖1所示。從該分布可以觀察到,只有少量問(wèn)題含有7個(gè)及以上的回復(fù),大多數(shù)問(wèn)題所包含的回復(fù)數(shù)量在1~6個(gè)之間,包含2~3個(gè)回復(fù)的問(wèn)題占比超過(guò)60%。
圖1 每個(gè)問(wèn)題對(duì)應(yīng)回復(fù)數(shù)量的分布
在我們的數(shù)據(jù)集上,同一問(wèn)答對(duì)不同標(biāo)注人員的標(biāo)注一致性,我們通過(guò)卡帕系數(shù)[26]來(lái)衡量,在最終數(shù)據(jù)集中,同一個(gè)回復(fù)的兩個(gè)評(píng)分之間的卡帕一致性達(dá)到80.3%,這表明了整個(gè)數(shù)據(jù)集上評(píng)分的高度一致性,側(cè)面反映了該數(shù)據(jù)集評(píng)分結(jié)果的可靠性。圖2展示了數(shù)據(jù)集中總體評(píng)分的分布,其中48.6%的回復(fù)評(píng)分屬于[2.5,3.5]這個(gè)區(qū)間,反映了數(shù)據(jù)集中大量存在“一般的”回復(fù)。如前文所述,這類回復(fù)屬于萬(wàn)能回復(fù)或者是具有時(shí)空限制的回復(fù),這種類型回復(fù)的大量存在顯示出從“極好的”和“較好的”實(shí)例中分離出“時(shí)空限制的”回復(fù)以及“萬(wàn)能回復(fù)”的重要性,從而能夠進(jìn)一步精確地區(qū)分出高質(zhì)量的回復(fù)內(nèi)容。經(jīng)過(guò)進(jìn)一步觀察,我們發(fā)現(xiàn)23.9%的回復(fù)得分在2.5分以下,一定程度上說(shuō)明了社交媒體文本的回復(fù)質(zhì)量良莠不齊,因此當(dāng)訓(xùn)練和評(píng)估聊天機(jī)器人的時(shí)候,并不能假設(shè)所有用戶生成的回復(fù)都是好的結(jié)果。因此在對(duì)話系統(tǒng)中直接使用自動(dòng)獲取的數(shù)據(jù)具有一定程度的局限性,同時(shí)也進(jìn)一步說(shuō)明了在對(duì)話數(shù)據(jù)中區(qū)分對(duì)話回復(fù)質(zhì)量的重要性?;谠紨?shù)據(jù)和發(fā)布數(shù)據(jù)上的多個(gè)維度指標(biāo)參考表3。
圖2 兩位標(biāo)注人員的平均評(píng)分分布比例
指標(biāo)發(fā)布數(shù)據(jù)問(wèn)題個(gè)數(shù)27 383問(wèn)答對(duì)個(gè)數(shù)82 010總字符數(shù)1 386 450總詞數(shù)1 030 629問(wèn)題平均含有字符數(shù)6.33
續(xù)表
為了測(cè)試標(biāo)注數(shù)據(jù)的合理性以及生成數(shù)據(jù)集的有效性,我們基于最終標(biāo)注的數(shù)據(jù)集比較了不同回復(fù)選擇模型的性能。這里我們使用回復(fù)選擇模型作為測(cè)試方法的依據(jù)是,當(dāng)前一般非任務(wù)型對(duì)話系統(tǒng)都是基于檢索式的回復(fù)選擇框架[27],因此本文的實(shí)驗(yàn)設(shè)定可以有效反映實(shí)際系統(tǒng)的性能。實(shí)驗(yàn)設(shè)置描述詳見(jiàn)4.1節(jié),結(jié)果分析闡述見(jiàn)4.2節(jié)。
預(yù)處理中,我們使用結(jié)巴分詞工具[注]https: //github.com/fxsjy/jieba進(jìn)行中文分詞。接著,我們隨機(jī)選取問(wèn)答對(duì)的80%作為訓(xùn)練集,10%選入驗(yàn)證集,剩下的10%作為測(cè)試集。在實(shí)驗(yàn)中,我們維護(hù)一個(gè)詞典,這個(gè)詞典包含在訓(xùn)練集中出現(xiàn)的所有詞。表4中列出了實(shí)驗(yàn)數(shù)據(jù)集的詳細(xì)統(tǒng)計(jì)信息。
表4 實(shí)驗(yàn)數(shù)據(jù)集的統(tǒng)計(jì)信息
注: 均長(zhǎng)表示句子切詞之后詞的平均個(gè)數(shù)。
在實(shí)驗(yàn)中,我們考慮兩個(gè)非監(jiān)督的排序(ranking)模型作為基線模型: Cosine Sim[注]https: //en.wikipedia.org/wiki/Cosine_similarity和BM25[28]。Cosine Sim通過(guò)問(wèn)題和回復(fù)的TF-IDF來(lái)計(jì)算余弦相似度,然后將回復(fù)根據(jù)相似度從高到低排序。BM25模型根據(jù)類似TF-IDF的方法對(duì)回復(fù)排序。Cosine Sim和BM25所使用到的詞文檔頻率(DF)主要基于訓(xùn)練集來(lái)計(jì)算。
同時(shí),我們也測(cè)試了基于排序?qū)W習(xí)(learning-to-rank)的監(jiān)督模型的結(jié)果。我們選擇了兩個(gè)經(jīng)典模型: SVMRank[29]和梯度提升決策樹(shù)(GBDT)[30]。這類模型需要依賴人工的特征提取工程,提取的特征與Wang et. al[13]提出的方法相似,包括回復(fù)的句子長(zhǎng)度、回復(fù)句子和對(duì)應(yīng)問(wèn)題的余弦相似度等。額外地,我們還測(cè)試了兩種廣泛應(yīng)用的神經(jīng)網(wǎng)絡(luò)模型——雙向長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(BiLSTM)[31]和卷積神經(jīng)網(wǎng)絡(luò)(CNN)[32]。BiLSTM和CNN可以實(shí)現(xiàn)端到端的訓(xùn)練,自動(dòng)學(xué)習(xí)特征,無(wú)需依賴特征工程,訓(xùn)練方式類似于問(wèn)答(QA)系統(tǒng),對(duì)話問(wèn)題和回復(fù)分別對(duì)應(yīng)問(wèn)答系統(tǒng)中的問(wèn)題與答案。對(duì)于所有上面提到的模型,超參數(shù)的調(diào)節(jié)在驗(yàn)證集上進(jìn)行。其中神經(jīng)網(wǎng)絡(luò)模型BiLSTM和CNN的編碼器的隱層大小都設(shè)置為300,使用均方誤差(MSE)[33]作為損失函數(shù),并且在訓(xùn)練時(shí)使用early-stop[34]策略來(lái)防止過(guò)擬合。
我們遵循問(wèn)答系統(tǒng)的評(píng)價(jià)方法: 即給定一個(gè)問(wèn)題來(lái)評(píng)價(jià)排序過(guò)的回復(fù),需要將回復(fù)切分為“正樣本”和“負(fù)樣本”兩類。因此,我們按照回復(fù)的評(píng)分等級(jí)將二分類的切分閾值N分別設(shè)為3、4、5,將標(biāo)注等級(jí)大于等于N的回復(fù)認(rèn)為是正樣本,其他等級(jí)的回復(fù)認(rèn)為是負(fù)樣本??傮w來(lái)說(shuō),N越大意味著標(biāo)準(zhǔn)越嚴(yán)格。表5展示了在不同的切分情況下,不同模型的實(shí)驗(yàn)結(jié)果。我們的評(píng)測(cè)指標(biāo)是基于測(cè)試集得到的:P@1(precision@1)、平均精度均值(MAP)、倒數(shù)排名均值(MRR)。特別地,如果某個(gè)問(wèn)題對(duì)應(yīng)的所有回復(fù)按照排序閾值進(jìn)行切分之后只有正負(fù)樣本其中的一類,我們會(huì)將其移除出我們的測(cè)試集,以保證模型評(píng)分的公正性。
表5 對(duì)比結(jié)果(%)
注: 更高的分?jǐn)?shù)表明更好的結(jié)果。閾值@N: 表示回復(fù)評(píng)分大于等于N被認(rèn)為是正例,其他就是負(fù)例。N越大表明標(biāo)準(zhǔn)更加嚴(yán)格。
最后的實(shí)驗(yàn)結(jié)果可以導(dǎo)出如下觀察: ①?gòu)恼w來(lái)看,監(jiān)督模型比非監(jiān)督模型結(jié)果更好,一定程度反映了我們的標(biāo)注數(shù)據(jù)能夠幫助監(jiān)督模型辨別高質(zhì)量回復(fù)。進(jìn)一步觀察監(jiān)督模型和非監(jiān)督模型在不同切分閾值上的差距時(shí),我們發(fā)現(xiàn),當(dāng)標(biāo)準(zhǔn)越嚴(yán)格,監(jiān)督模型與非監(jiān)督模型的差距越大。這說(shuō)明,當(dāng)標(biāo)準(zhǔn)比較寬松的時(shí)候,非監(jiān)督模型尚能通過(guò)一些簡(jiǎn)單的統(tǒng)計(jì)規(guī)則區(qū)分出真正“差”的回復(fù)。但是當(dāng)標(biāo)準(zhǔn)愈加嚴(yán)格的時(shí)候,非監(jiān)督模型的性能急劇下降,而監(jiān)督模型通過(guò)學(xué)習(xí)人工標(biāo)注,能夠很好地區(qū)分出更高質(zhì)量的回復(fù)。以上觀察說(shuō)明了我們的標(biāo)注結(jié)果對(duì)指導(dǎo)模型學(xué)習(xí)高質(zhì)量回復(fù)頗有助益。②對(duì)于監(jiān)督模型而言,在閾值N=3和4之間的差距比閾值N=4和5之間的差距要大得多。產(chǎn)生這種現(xiàn)象的原因可能是 “極好的”和“較好的”回復(fù)相比于“較好的”和“一般的”回復(fù)區(qū)分度不大,這一觀察也從側(cè)面反映出在“好”的回復(fù)中區(qū)分出更高質(zhì)量的回復(fù)對(duì)于標(biāo)注人員而言亦是十分困難的任務(wù),從而體現(xiàn)出標(biāo)注對(duì)話數(shù)據(jù)集工作的挑戰(zhàn)性。
在本文工作中,我們構(gòu)建了一個(gè)大規(guī)模人工標(biāo)注中文對(duì)話數(shù)據(jù)集,其中包含了超過(guò)27 000個(gè)不同的中文問(wèn)題以及82 000多條回復(fù)。在這個(gè)數(shù)據(jù)集中,每個(gè)問(wèn)題的每個(gè)回復(fù)根據(jù)與問(wèn)題的相關(guān)性、連貫性以及內(nèi)容的豐富性和趣味性等指標(biāo)被分為5個(gè)評(píng)分等級(jí)。根據(jù)我們的調(diào)研,該數(shù)據(jù)集是第一個(gè)由人工標(biāo)注的專門(mén)針對(duì)非任務(wù)導(dǎo)向的對(duì)話系統(tǒng)的中文數(shù)據(jù)集。相比于自動(dòng)標(biāo)注的數(shù)據(jù)集而言,本文所述數(shù)據(jù)集的標(biāo)注質(zhì)量更為可靠,可以助益于聊天機(jī)器人的訓(xùn)練和評(píng)估。通過(guò)對(duì)話回復(fù)選擇的實(shí)驗(yàn),在這個(gè)數(shù)據(jù)集上,我們對(duì)比了不同模型的性能,實(shí)驗(yàn)結(jié)果反映了本文提出的數(shù)據(jù)集的客觀性和有效性。