亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

軟件測(cè)試技術(shù)在人機(jī)對(duì)話(huà)系統(tǒng)中的應(yīng)用研究

2019-11-22 07:48:18林曉欲YuanTommy雷倩茹

航空兵器 2019年5期

林曉欲,Yuan Tommy，雷倩茹

(1.洛陽(yáng)光電技術(shù)發(fā)展中心，河南洛陽(yáng) 471000；2.約克大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院，英國(guó) 約克 YO10 5GH)

0 引言

人工智能技術(shù)毫無(wú)疑問(wèn)地被列為即將改變世界的突破性技術(shù)之一。而人機(jī)對(duì)話(huà)[1]是人工智能領(lǐng)域的一個(gè)子方向，通俗地講就是讓人可以通過(guò)人類(lèi)的語(yǔ)言(即自然語(yǔ)言:文字、語(yǔ)音，甚至兩者皆含)與計(jì)算機(jī)進(jìn)行交互，來(lái)完成確定任務(wù)的人與計(jì)算機(jī)之間的信息交換過(guò)程。[2]

人機(jī)對(duì)話(huà)系統(tǒng)陸續(xù)上線(xiàn)使用，越來(lái)越貼近人類(lèi)的工作、學(xué)習(xí)和生活，其類(lèi)型多種多樣，狀態(tài)各異，對(duì)話(huà)目標(biāo)也各不相同，已經(jīng)滲透到社會(huì)的方方面面。人機(jī)對(duì)話(huà)系統(tǒng)的復(fù)雜性和普遍性也使人們意識(shí)到其質(zhì)量保證的重要性。

人機(jī)對(duì)話(huà)系統(tǒng)的本質(zhì)是軟件通過(guò)一定的載體來(lái)達(dá)到其目標(biāo)。傳統(tǒng)軟件的質(zhì)量保證通常通過(guò)軟件測(cè)試來(lái)實(shí)現(xiàn)。人機(jī)對(duì)話(huà)系統(tǒng)既符合軟件產(chǎn)品的基本屬性，又具有其固有特點(diǎn)。針對(duì)其特點(diǎn)，如何運(yùn)用軟件測(cè)試技術(shù)研究出一種有效的方法開(kāi)展測(cè)試，來(lái)達(dá)到對(duì)人機(jī)對(duì)話(huà)系統(tǒng)軟件質(zhì)量保證的目標(biāo),成為人機(jī)對(duì)話(huà)系統(tǒng)相關(guān)研究的熱點(diǎn)和難點(diǎn)。

本文結(jié)合傳統(tǒng)的軟件測(cè)試方法，將8種基本對(duì)話(huà)類(lèi)型按照實(shí)現(xiàn)用途歸結(jié)為4類(lèi)，并分析4類(lèi)對(duì)話(huà)系統(tǒng)的特征，提出針對(duì)性的測(cè)試方法和思路。將軟件測(cè)試技術(shù)用于英國(guó)約克大學(xué)開(kāi)發(fā)研究的某人機(jī)辯論系統(tǒng)中，通過(guò)測(cè)試工作，發(fā)現(xiàn)該系統(tǒng)的一些缺陷，提出了改進(jìn)建議。通過(guò)具體的對(duì)話(huà)系統(tǒng)測(cè)試實(shí)踐，驗(yàn)證了測(cè)試方案的有效性，為后續(xù)研究提供了基礎(chǔ)。

1 對(duì)話(huà)系統(tǒng)

1.1 基本對(duì)話(huà)類(lèi)型

從文獻(xiàn)[3]資料中已經(jīng)認(rèn)識(shí)到的7種人類(lèi)基本類(lèi)型的對(duì)話(huà)是：說(shuō)服、調(diào)查(詢(xún)問(wèn))、發(fā)現(xiàn)、談判、信息查詢(xún)、審議、爭(zhēng)論。這7種是基于參與者有明確目標(biāo)的，即任務(wù)型對(duì)話(huà)系統(tǒng)，如果再加上開(kāi)放域?qū)υ?huà)，即聊天，那么基本的對(duì)話(huà)類(lèi)型為8種，如表1所示。

目前，人機(jī)對(duì)話(huà)系統(tǒng)根據(jù)基本對(duì)話(huà)類(lèi)型和實(shí)現(xiàn)用途進(jìn)行歸類(lèi)，可以分為4類(lèi)：?jiǎn)柎?、任?wù)驅(qū)動(dòng)的多輪對(duì)話(huà)、推薦和開(kāi)放域聊天。

(1)問(wèn)答：接近一個(gè)自然語(yǔ)言理解加信息檢索的過(guò)程，側(cè)重于一問(wèn)一答，即直接根據(jù)用戶(hù)的問(wèn)題給出精準(zhǔn)的答案?；緦?duì)話(huà)類(lèi)型中的發(fā)現(xiàn)、調(diào)查和信息查詢(xún)與該功能相對(duì)應(yīng)。

(2)任務(wù)驅(qū)動(dòng)的多輪對(duì)話(huà)：由于用戶(hù)需求比較復(fù)雜，有很多限制條件，可能需要分多輪進(jìn)行陳述，所以更是一個(gè)決策過(guò)程，需要機(jī)器在對(duì)話(huà)過(guò)程中不斷根據(jù)當(dāng)前的狀態(tài)決策下一步應(yīng)該采取的最優(yōu)動(dòng)作(如提供結(jié)果、詢(xún)問(wèn)特定限制條件、澄清或確認(rèn)需求等)，從而最有效地輔助用戶(hù)完成服務(wù)獲取或解決問(wèn)題?；緦?duì)話(huà)類(lèi)型中的說(shuō)服、談判、商議和爭(zhēng)論與該功能相對(duì)應(yīng)。

(3)推薦：根據(jù)當(dāng)前的用戶(hù)需求和歷史的用戶(hù)畫(huà)像主動(dòng)推薦用戶(hù)可能感興趣的信息或者服務(wù)?；緦?duì)話(huà)類(lèi)型與該功能沒(méi)有直接相關(guān)，可以說(shuō)是對(duì)對(duì)話(huà)系統(tǒng)的技術(shù)衍生。常言道，需求不存在因?yàn)榧夹g(shù)不存在。在當(dāng)今信息爆發(fā)的時(shí)代，推薦技術(shù)在幫助用戶(hù)尋找信息、幫助服務(wù)商尋找客戶(hù)的環(huán)節(jié)中扮演了舉足輕重的地位。

(4)開(kāi)放域聊天：在用戶(hù)沒(méi)有明確的信息或服務(wù)獲取需求時(shí)系統(tǒng)做出的回應(yīng)。自然語(yǔ)言聊天在現(xiàn)有的人機(jī)對(duì)話(huà)系統(tǒng)中，主要起到拉近距離、建立信任關(guān)系、情感陪伴、順滑對(duì)話(huà)過(guò)程(如在任務(wù)類(lèi)對(duì)話(huà)無(wú)法滿(mǎn)足用戶(hù)需求時(shí))和提高用戶(hù)粘性的作用?；緦?duì)話(huà)類(lèi)型中的聊天與該功能對(duì)應(yīng)。

1.2 對(duì)話(huà)系統(tǒng)工作過(guò)程

常見(jiàn)的對(duì)話(huà)系統(tǒng)工作過(guò)程主要為：系統(tǒng)首先理解人類(lèi)發(fā)出的信息，將其表示為一種內(nèi)部狀態(tài)，然后根據(jù)對(duì)話(huà)狀態(tài)的政策采取相應(yīng)的行動(dòng)，最后將行動(dòng)轉(zhuǎn)化為一種自然語(yǔ)言的表現(xiàn)形式，如圖1所示。主要由以下部分組成：自然語(yǔ)言理解(Natural Language Understanding，NLU)、對(duì)話(huà)狀態(tài)跟蹤(Dia-logue State Tracking，DST)、對(duì)話(huà)策略學(xué)習(xí)(Dialogue Policy Learning,DPL)、自然語(yǔ)言生成(Natural Language Generation，NLG)[4]。其中DST和DPL統(tǒng)稱(chēng)為對(duì)話(huà)管理(Dialogue Management，DM)[5]，即根據(jù)對(duì)話(huà)歷史信息，決定對(duì)用戶(hù)的反應(yīng)。

圖1 對(duì)話(huà)系統(tǒng)工作過(guò)程Fig.1 Dialogue system working process

1.3 軟件測(cè)試方法[6]

由于軟件開(kāi)發(fā)人員思維上的主觀局限性，且軟件系統(tǒng)的復(fù)雜性，軟件非常容易出錯(cuò)。而軟件一旦發(fā)生故障，造成的后果可能非常嚴(yán)峻。減少軟件缺陷、提高軟件質(zhì)量是一項(xiàng)艱巨的任務(wù)。

軟件測(cè)試是為了發(fā)現(xiàn)軟件產(chǎn)品所存在的任何意義上的軟件缺陷，從而糾正這些軟件缺陷，使軟件系統(tǒng)更好地滿(mǎn)足用戶(hù)的需求[7]。從哲學(xué)觀點(diǎn)看，分析問(wèn)題和解決問(wèn)題的方法有兩種：白盒方法和黑盒方法。軟件測(cè)試沿用哲學(xué)思想，將測(cè)試方法也分為白盒測(cè)試方法和黑盒測(cè)試方法。

白盒測(cè)試(White Box Testing)[8]又稱(chēng)結(jié)構(gòu)測(cè)試或者邏輯驅(qū)動(dòng)測(cè)試，是把測(cè)試對(duì)象看作一個(gè)打開(kāi)的盒子，如圖2所示。白盒測(cè)試需要測(cè)試軟件產(chǎn)品的內(nèi)部結(jié)構(gòu)和處理過(guò)程，不需要測(cè)試軟件產(chǎn)品的功能。白盒測(cè)試方法的覆蓋標(biāo)準(zhǔn)有邏輯覆蓋、循環(huán)覆蓋和基本路徑測(cè)試等。

圖2 白盒測(cè)試Fig.2 White box testing

黑盒測(cè)試(Black Box Testing)[9]又稱(chēng)功能測(cè)試或者數(shù)據(jù)驅(qū)動(dòng)測(cè)試，是根據(jù)軟件的規(guī)格對(duì)軟件進(jìn)行的測(cè)試，這類(lèi)測(cè)試不考慮軟件內(nèi)部的運(yùn)作原理，因此軟件對(duì)用戶(hù)來(lái)說(shuō)就像一個(gè)黑盒子，如圖3所示。軟件測(cè)試人員從用戶(hù)的角度，通過(guò)各種輸入和觀察軟件的各種輸出結(jié)果來(lái)發(fā)現(xiàn)軟件存在的缺陷，而不關(guān)心程序具體如何實(shí)現(xiàn)。黑盒測(cè)試的類(lèi)型有功能、性能、接口、兼容性、易用性等。黑盒測(cè)試方法的覆蓋標(biāo)準(zhǔn)為需求覆蓋。

圖3 黑盒測(cè)試Fig.3 Black box testing

2 人機(jī)對(duì)話(huà)系統(tǒng)測(cè)試策略

2.1 對(duì)話(huà)系統(tǒng)應(yīng)用程序的特點(diǎn)

對(duì)話(huà)系統(tǒng)應(yīng)用程序是一系列按照特定順序組織的計(jì)算機(jī)數(shù)據(jù)和指令的集合，既符合軟件的基本特點(diǎn)，也具有其特殊性，主要有：不確定性和概率性、對(duì)大數(shù)據(jù)具有依賴(lài)性、隨機(jī)性的輸入/輸出、難以預(yù)測(cè)所有應(yīng)用場(chǎng)景、需要從過(guò)去的行為中不斷自我學(xué)習(xí)。具體表現(xiàn)是：

(1)對(duì)話(huà)系統(tǒng)是由巨大而多樣的數(shù)據(jù)驅(qū)動(dòng)的，在做出任何決定之前都需要進(jìn)行處理；這些數(shù)據(jù)可以是任何格式，如文本、語(yǔ)音、圖像、視頻等，來(lái)源也各不相同；這些數(shù)據(jù)可能是一次性攝入的，也可能是一個(gè)連續(xù)的過(guò)程；數(shù)據(jù)是人機(jī)對(duì)話(huà)系統(tǒng)所采取的任何預(yù)測(cè)、決定或行動(dòng)的基礎(chǔ)。

(2)對(duì)話(huà)系統(tǒng)是機(jī)器學(xué)習(xí)系統(tǒng)，系統(tǒng)通過(guò)學(xué)習(xí)、訓(xùn)練來(lái)執(zhí)行某些動(dòng)作。根據(jù)需要和上下文，這些算法可能在種類(lèi)和復(fù)雜性上有所不同，可以組合多個(gè)算法來(lái)給出特定的期望輸出。

(3)與第三方系統(tǒng)有豐富的接口，通常被應(yīng)用于其他更大的應(yīng)用程序以滿(mǎn)足最終的業(yè)務(wù)目標(biāo)。

2.2 測(cè)試策略[10]

2.2.1 基本測(cè)試策略

人機(jī)對(duì)話(huà)的核心是利用對(duì)歷史數(shù)據(jù)的處理訓(xùn)練，得出可以在將來(lái)數(shù)據(jù)上有良好輸出的模型[11]。所以，對(duì)于測(cè)試而言，應(yīng)該關(guān)心數(shù)據(jù)模型在對(duì)待正常數(shù)據(jù)、邊界數(shù)據(jù)、異常數(shù)據(jù)作為輸入時(shí)，模型的輸出是否能夠符合期望；數(shù)據(jù)模型在經(jīng)過(guò)訓(xùn)練后，用測(cè)試集數(shù)據(jù)預(yù)測(cè)的正確率如何。因此，應(yīng)開(kāi)展數(shù)據(jù)測(cè)試、分層測(cè)試、訓(xùn)練集和測(cè)試集對(duì)比測(cè)試。

(1)開(kāi)展數(shù)據(jù)測(cè)試。用等價(jià)類(lèi)劃分、邊界值分析等方法進(jìn)行功能測(cè)試，尤其是邊界、異常數(shù)據(jù)測(cè)試，如輸入與訓(xùn)練時(shí)一樣的數(shù)據(jù)、與訓(xùn)練時(shí)完全不同的數(shù)據(jù)、訓(xùn)練時(shí)的邊界值等，看是否達(dá)到期望輸出；以此來(lái)驗(yàn)證模型對(duì)數(shù)據(jù)的容錯(cuò)能力，算法是否能夠通過(guò)迭代和對(duì)比來(lái)減少誤差；驗(yàn)證系統(tǒng)能夠接受來(lái)自各種來(lái)源和各種格式的數(shù)據(jù)；驗(yàn)證所攝入的數(shù)據(jù)是按照目標(biāo)系統(tǒng)所期望的格式轉(zhuǎn)換。

(2)開(kāi)展分層測(cè)試。針對(duì)人機(jī)對(duì)話(huà)系統(tǒng)的復(fù)雜性，對(duì)模型進(jìn)行分層測(cè)試。模型工作的過(guò)程是：數(shù)據(jù)引入、數(shù)據(jù)處理(清洗、拆分、拼接等)、特征工程、模型訓(xùn)練、模型上線(xiàn)。通過(guò)測(cè)試分層后每一個(gè)部分的功能、性能和各層的接口實(shí)現(xiàn)對(duì)模型的測(cè)試。

(3)開(kāi)展訓(xùn)練集和測(cè)試集對(duì)比測(cè)試。對(duì)話(huà)策略學(xué)習(xí)的算法主要是機(jī)器根據(jù)數(shù)據(jù)特征和特征的權(quán)重來(lái)預(yù)測(cè)一個(gè)行為，是一個(gè)結(jié)果概率。因此，使用訓(xùn)練數(shù)據(jù)集來(lái)理解和建模系統(tǒng)行為，并使用測(cè)試數(shù)據(jù)來(lái)驗(yàn)證系統(tǒng)的準(zhǔn)確性或響應(yīng)也是一種測(cè)試方法。

值得注意的是，傳統(tǒng)的測(cè)試需要有準(zhǔn)確的預(yù)期結(jié)果，這是邏輯思維的結(jié)果。而人機(jī)對(duì)話(huà)(除了問(wèn)答)往往沒(méi)有準(zhǔn)確的預(yù)期結(jié)果，也不需要保證每次數(shù)據(jù)的正確性。應(yīng)該考察即便數(shù)據(jù)有一點(diǎn)問(wèn)題，最后得出的模型效果還不差這樣的結(jié)果；需要驗(yàn)證隨著數(shù)據(jù)規(guī)模的增長(zhǎng)，數(shù)據(jù)結(jié)果的正確性和優(yōu)化效果。因此，對(duì)人機(jī)對(duì)話(huà)系統(tǒng)測(cè)試的思路應(yīng)該從注重“邏輯分析”轉(zhuǎn)換到“知識(shí)學(xué)習(xí)能力的驗(yàn)證”上。

主要測(cè)試類(lèi)型有：

(1)功能測(cè)試：用等價(jià)類(lèi)劃分、邊界值分析等方法進(jìn)行數(shù)據(jù)、模型過(guò)程的功能劃分，測(cè)試功能的正確實(shí)現(xiàn)；模型是否能夠根據(jù)處理數(shù)據(jù)的量從少到多而自動(dòng)不斷優(yōu)化、調(diào)整輸出。

(2)性能測(cè)試：用場(chǎng)景法確定不同的性能需求，測(cè)試模型在處理數(shù)據(jù)時(shí)的效率(學(xué)習(xí)過(guò)程、cpu占用率、內(nèi)存消耗等)；在同一平臺(tái)通過(guò)不斷點(diǎn)擊運(yùn)行，以及快速退出和快速進(jìn)入，處理大量數(shù)據(jù)、空數(shù)據(jù)等觀察性能指標(biāo)的變化等。

(3)接口測(cè)試：測(cè)試模型分層后數(shù)據(jù)的正確轉(zhuǎn)換和傳輸；測(cè)試模型輸入輸出的正確性。

(4)易用性測(cè)試：測(cè)試模型是否有良好的用戶(hù)交互；測(cè)試具體使用時(shí)，是否有良好的告知用戶(hù)的提示，不能一直處于安裝或等待狀態(tài)等；測(cè)試模型是否有人性化的參數(shù)調(diào)整入口，供運(yùn)營(yíng)人員以及測(cè)試人員對(duì)上線(xiàn)后、上線(xiàn)前進(jìn)行調(diào)整。

(5)兼容性測(cè)試：測(cè)試不同的操作系統(tǒng)下運(yùn)行對(duì)話(huà)系統(tǒng)的兼容性；測(cè)試軟件與其他軟件共同運(yùn)行的情況。

2.2.2 特殊測(cè)試策略

(1)問(wèn)答系統(tǒng)DM測(cè)試策略

問(wèn)答系統(tǒng)DM主要實(shí)現(xiàn)過(guò)程是：在問(wèn)句的類(lèi)型識(shí)別與分類(lèi)的基礎(chǔ)上，進(jìn)行文本的檢索[12]以及知識(shí)庫(kù)的匹配。也就是分為問(wèn)題分析、信息檢索、答案抽取三部分。其路徑排列的數(shù)量非常大，因此，在測(cè)試中不可能運(yùn)行路徑的每一種組合，所以要進(jìn)行針對(duì)性測(cè)試，通過(guò)對(duì)系統(tǒng)業(yè)務(wù)需求和業(yè)務(wù)流程的分析，從宏觀角度考慮用例應(yīng)該包括哪些基本流和備選流。通過(guò)用例場(chǎng)景[13]來(lái)描述流經(jīng)用例的路徑，繼而確定從用例開(kāi)始到結(jié)束遍歷這條路徑上所有的基本流和備選流，形成比較高的場(chǎng)景覆蓋率，指導(dǎo)測(cè)試的實(shí)施，以保證軟件的質(zhì)量。

測(cè)試首先抽取業(yè)務(wù)流程圖，即從系統(tǒng)需求說(shuō)明書(shū)或相關(guān)文檔中提取出相關(guān)的業(yè)務(wù)流程，形成業(yè)務(wù)流程圖；其次，確定關(guān)系圖，即根據(jù)具體的業(yè)務(wù)流程圖，畫(huà)出基本流和備選流的關(guān)系圖；然后，確定觸發(fā)條件，即經(jīng)過(guò)以上對(duì)系統(tǒng)(子系統(tǒng))的運(yùn)作流程的分析，根據(jù)業(yè)務(wù)流程圖，按照傳統(tǒng)的用例分析方法分析出每個(gè)基本流與備選流的觸發(fā)條件；最后，進(jìn)行場(chǎng)景分析，即根據(jù)確定的基本流和備選流的關(guān)系，再加上確定的觸發(fā)條件的描述，確定出不同的用例場(chǎng)景。

測(cè)試類(lèi)型與基本測(cè)試類(lèi)型相同。需特別說(shuō)明，在功能測(cè)試時(shí)，通過(guò)備選流的測(cè)試，保證對(duì)系統(tǒng)異常情況的測(cè)試覆蓋。

(2)多輪對(duì)話(huà)系統(tǒng)DM測(cè)試策略

多輪對(duì)話(huà)系統(tǒng)DM就是在NLU(領(lǐng)域分類(lèi)和意圖識(shí)別、槽填充)的基礎(chǔ)上，進(jìn)行對(duì)話(huà)狀態(tài)的追蹤(DST)以及對(duì)話(huà)策略的學(xué)習(xí)(DPL)，以便于DPL階段策略的學(xué)習(xí)以及NLG階段澄清需求、引導(dǎo)用戶(hù)、詢(xún)問(wèn)、確認(rèn)、對(duì)話(huà)結(jié)束語(yǔ)等。

產(chǎn)生的狀態(tài)數(shù)跟意圖和槽值對(duì)的數(shù)成指數(shù)關(guān)系，與問(wèn)答系統(tǒng)DM測(cè)試策略相同。同樣通過(guò)用例場(chǎng)景來(lái)描述流經(jīng)用例的路徑，形成比較高的場(chǎng)景覆蓋率，以保證軟件的質(zhì)量。

其特殊性在于，存在上下文處理及決策過(guò)程，由于多輪交互時(shí)，有很多信息在交互的上文中已經(jīng)出現(xiàn)，用戶(hù)不會(huì)再在當(dāng)前的問(wèn)題中進(jìn)行重復(fù)，所以需要一個(gè)上下文的記憶模塊，根據(jù)所有對(duì)話(huà)歷史信息推斷當(dāng)前對(duì)話(huà)狀態(tài)St和用戶(hù)目標(biāo)。常用的方法是運(yùn)用人工規(guī)則、生成式模型、判別式模型、Web Rank等，因此，對(duì)這部分的測(cè)試可以與基本測(cè)試策略相同。

測(cè)試方法為問(wèn)答系統(tǒng)DM測(cè)試方法與基本測(cè)試方法結(jié)合。測(cè)試實(shí)現(xiàn)為問(wèn)答系統(tǒng)DM測(cè)試實(shí)現(xiàn)與基本測(cè)試實(shí)現(xiàn)結(jié)合。

(3)推薦系統(tǒng)DM測(cè)試策略

推薦系統(tǒng)DM就是進(jìn)行用戶(hù)興趣的匹配以及推薦內(nèi)容評(píng)分、排序和篩選等，以便于NLG階段生成更好的給用戶(hù)推薦的內(nèi)容。對(duì)推薦系統(tǒng)測(cè)試可以算作大數(shù)據(jù)測(cè)試和算法測(cè)試。

基于大數(shù)據(jù)算法的測(cè)試方法可以用結(jié)果反饋的方式去測(cè)試，即對(duì)結(jié)果進(jìn)行實(shí)時(shí)監(jiān)控，發(fā)現(xiàn)異常后及時(shí)反饋；也可以自己構(gòu)造一些數(shù)據(jù)，然后用算法去跑自己構(gòu)造的數(shù)據(jù)，檢查結(jié)果是否正確。

推薦系統(tǒng)的測(cè)試實(shí)現(xiàn)方式分別為：從所有的結(jié)果當(dāng)中進(jìn)行抽樣，然后進(jìn)行基本的業(yè)務(wù)測(cè)試；自己構(gòu)造測(cè)試數(shù)據(jù)，然后對(duì)這些數(shù)據(jù)的輸出結(jié)果進(jìn)行測(cè)試；基于效果的監(jiān)控，通過(guò)監(jiān)控算法上線(xiàn)后點(diǎn)擊率、平均瀏覽時(shí)長(zhǎng)、平均停留時(shí)長(zhǎng)、留存情況、覆蓋率等常用的評(píng)估指標(biāo)是否有上升。

(4)開(kāi)放域聊天系統(tǒng)DM測(cè)試策略

聊天系統(tǒng)DM就是對(duì)上下文進(jìn)行序列建模、對(duì)候選回復(fù)進(jìn)行評(píng)分、排序和篩選等，以便于NLG階段生成更好的回復(fù)。其本質(zhì)與多輪對(duì)話(huà)系統(tǒng)相同。

3 對(duì)某人機(jī)對(duì)話(huà)系統(tǒng)的測(cè)試實(shí)踐

3.1 被測(cè)軟件概述

約克大學(xué)人工智能小組開(kāi)發(fā)的“人機(jī)對(duì)話(huà)系統(tǒng)”對(duì)話(huà)模型DE[14]是建立在正式辯論系統(tǒng)DC的基礎(chǔ)上的辯論系統(tǒng)模型。該系統(tǒng)旨在提高辯論系統(tǒng)基本對(duì)話(huà)模型在辯論過(guò)程中發(fā)現(xiàn)錯(cuò)誤論點(diǎn)和常見(jiàn)錯(cuò)誤的能力。

設(shè)計(jì)者使用Java編程語(yǔ)言構(gòu)建了一個(gè)功能完整的原型，對(duì)對(duì)話(huà)模型DE進(jìn)行操作。這個(gè)系統(tǒng)可以讓用戶(hù)與其就有爭(zhēng)議的問(wèn)題進(jìn)行辯論。

系統(tǒng)有五個(gè)主要部分：界面部分、對(duì)話(huà)部分、承諾部分、計(jì)劃部分和知識(shí)庫(kù)部分。系統(tǒng)設(shè)計(jì)時(shí)對(duì)表達(dá)方式、庫(kù)集規(guī)則、對(duì)話(huà)規(guī)則進(jìn)行了規(guī)定。該辯論系統(tǒng)架構(gòu)如圖4所示。

圖4 某辯論系統(tǒng)架構(gòu)Fig.4 Debate system architecture

3.2 測(cè)試內(nèi)容與方法

辯論系統(tǒng)本質(zhì)上是一個(gè)以說(shuō)服為目的的多輪對(duì)話(huà)系統(tǒng)，所以參考本文2.2節(jié)的測(cè)試策略開(kāi)展測(cè)試。

目前，對(duì)人機(jī)系統(tǒng)的測(cè)試研究，無(wú)論是方法還是標(biāo)準(zhǔn)都處于探索階段，還未形成規(guī)范和標(biāo)準(zhǔn)，因此，本次測(cè)試是一次研究性的測(cè)試。由于該系統(tǒng)的輸入為列表選擇輸入，輸出為文字輸出，因此，本次測(cè)試涉及對(duì)話(huà)系統(tǒng)中的對(duì)話(huà)狀態(tài)跟蹤和對(duì)話(huà)策略學(xué)習(xí)，不涉及語(yǔ)音識(shí)別和文字輸入，不涉及語(yǔ)音輸出。

本次人機(jī)對(duì)話(huà)系統(tǒng)測(cè)試應(yīng)符合以下技術(shù)要求：

(1)系統(tǒng)的每個(gè)特性應(yīng)至少被一個(gè)正常測(cè)試用例和一個(gè)被認(rèn)可的異常測(cè)試用例所覆蓋；

(2)測(cè)試用例的輸入應(yīng)至少包括有效等價(jià)類(lèi)值和邊界數(shù)據(jù)值；

(3)測(cè)試系統(tǒng)的輸出及其格式；

(4)對(duì)不同的實(shí)際問(wèn)題應(yīng)外加相應(yīng)的專(zhuān)門(mén)測(cè)試。

考慮測(cè)試投入，結(jié)合軟件特點(diǎn)，制定對(duì)應(yīng)的測(cè)試策略如下：

(1)根據(jù)重要程度，排定測(cè)試的優(yōu)先順序?yàn)椋汗δ苄詼y(cè)試、易用性測(cè)試、兼容性測(cè)試、維護(hù)性測(cè)試；

(2)與委托方溝通項(xiàng)目建設(shè)經(jīng)驗(yàn)，針對(duì)委托方關(guān)注的業(yè)務(wù)內(nèi)容進(jìn)行重點(diǎn)測(cè)試；

(3)根據(jù)對(duì)軟件特點(diǎn)進(jìn)行分析，應(yīng)重點(diǎn)針對(duì)人機(jī)對(duì)話(huà)系統(tǒng)中決策的轉(zhuǎn)換場(chǎng)景進(jìn)行測(cè)試；

(4)使用歷史已有的測(cè)試數(shù)據(jù)輔助測(cè)試分析；

(5)對(duì)測(cè)試中提出的軟件問(wèn)題，應(yīng)與軟件承研單位充分溝通、確認(rèn)。

經(jīng)分析，本次測(cè)試需要開(kāi)展的測(cè)試類(lèi)型為功能性測(cè)試(包括接口測(cè)試)、易用性測(cè)試、維護(hù)性測(cè)試和兼容性測(cè)試。

對(duì)界面部分、對(duì)話(huà)部分、承諾部分、計(jì)劃部分、知識(shí)庫(kù)部分、輸入、知識(shí)響應(yīng)、規(guī)則等以及識(shí)別出來(lái)的重要場(chǎng)景進(jìn)行測(cè)試項(xiàng)分解，并進(jìn)行易用性、維護(hù)性和兼容性分析，結(jié)果如表2所示。

測(cè)試內(nèi)容充分性分析：

(1)對(duì)軟件中的功能需求及非功能需求進(jìn)行全面分析，并結(jié)合用戶(hù)提出的需求，共整理出19項(xiàng)測(cè)試需求，對(duì)應(yīng)19個(gè)測(cè)試項(xiàng)目，細(xì)化為64個(gè)測(cè)試子項(xiàng)，實(shí)現(xiàn)測(cè)試需求對(duì)可測(cè)軟件需求100%覆蓋。

(2)描述測(cè)試環(huán)境與實(shí)際運(yùn)行環(huán)境一致，滿(mǎn)足測(cè)試要求。

3.3 測(cè)試環(huán)境

測(cè)試環(huán)境配置如表3所示。

人機(jī)對(duì)話(huà)系統(tǒng)在計(jì)算機(jī)系統(tǒng)中完成其功能，本次測(cè)試環(huán)境為計(jì)算機(jī)系統(tǒng)，因此，測(cè)試環(huán)境與真實(shí)環(huán)境一致，無(wú)環(huán)境差異。

表2 功能測(cè)試需求分解Table 2 Test demand decomposition

表3 動(dòng)態(tài)測(cè)試環(huán)境配置列表Table 3 Dynamic test environment configuration list

3.4 測(cè)試設(shè)計(jì)

對(duì)于確定的測(cè)試內(nèi)容，按照分解的測(cè)試子項(xiàng)設(shè)計(jì)測(cè)試用例。每個(gè)單獨(dú)的測(cè)試都進(jìn)行了詳細(xì)描述。測(cè)試用例的基本表達(dá)如表4所示。

表4 測(cè)試用例Table 4 Test cases

注：>表示當(dāng)前活動(dòng)的角色。

3.5 測(cè)試執(zhí)行

按照測(cè)試用例的描述執(zhí)行測(cè)試。

3.6 測(cè)試總結(jié)

本次測(cè)試運(yùn)行測(cè)試用例125例，借用133個(gè)對(duì)話(huà)場(chǎng)景[15]，開(kāi)展了功能性(含接口)、易用性、兼容性、維護(hù)性測(cè)試，覆蓋了用戶(hù)提出的需求。

被測(cè)軟件在系統(tǒng)智能、用戶(hù)體驗(yàn)、系統(tǒng)價(jià)值和用戶(hù)界面幾個(gè)方面均滿(mǎn)足使用要求，特別是DE對(duì)話(huà)模型和所采取的策略實(shí)現(xiàn)了開(kāi)發(fā)目的；被測(cè)軟件具有良好的兼容性和可維護(hù)性。

測(cè)試過(guò)程中提出軟件問(wèn)題5個(gè)，其中功能性2個(gè)、易用性3個(gè)，均為一般性問(wèn)題。問(wèn)題具體描述為：

問(wèn)題1：測(cè)試人員扮演支持CP方，在經(jīng)過(guò)多輪辯論后，同意了對(duì)方的觀點(diǎn)(反方)，這時(shí)候裁判并沒(méi)有進(jìn)行裁決，而是讓辯論繼續(xù)。測(cè)試人員認(rèn)為此測(cè)試結(jié)果與需求不一致。

問(wèn)題2：幫助菜單中的部分功能未實(shí)現(xiàn)。

問(wèn)題3：辯論過(guò)程中，運(yùn)用“I don’t think” 或者“Why”作為論述開(kāi)始時(shí)，界面表示中不容易找到支持觀點(diǎn)的陳述。

問(wèn)題4：辯論過(guò)程中，運(yùn)用“I don’t think” 或者“Why”作為論述開(kāi)始時(shí)，可在用戶(hù)觀點(diǎn)和機(jī)器觀點(diǎn)里進(jìn)行多項(xiàng)選擇，系統(tǒng)不能及時(shí)給出限制提示。

問(wèn)題5：幫助菜單內(nèi)容多次點(diǎn)擊會(huì)在屏幕上多個(gè)顯示，系統(tǒng)不能進(jìn)行限制。

與開(kāi)發(fā)方進(jìn)行溝通，對(duì)于問(wèn)題1，開(kāi)發(fā)方認(rèn)為該系統(tǒng)設(shè)計(jì)的目的是用于教學(xué)的辯論系統(tǒng)，所以在辯論策略設(shè)計(jì)上還考慮了辯論內(nèi)容覆蓋的全面性，基于這個(gè)考慮，裁判進(jìn)行裁決的時(shí)機(jī)會(huì)跟真實(shí)辯論過(guò)程不同。針對(duì)該問(wèn)題，開(kāi)發(fā)方會(huì)在相應(yīng)文件中進(jìn)行說(shuō)明。此外，接受其余4個(gè)問(wèn)題并進(jìn)行改進(jìn)。

4 總結(jié)

本文通過(guò)研究不同對(duì)話(huà)系統(tǒng)的特點(diǎn)，提出相應(yīng)的軟件測(cè)試方法和思路。經(jīng)研究表明，傳統(tǒng)的測(cè)試類(lèi)型同樣適用于人機(jī)對(duì)話(huà)系統(tǒng)測(cè)試，但是在測(cè)試策略制定時(shí)，需要考慮由于人機(jī)對(duì)話(huà)系統(tǒng)中用到大量機(jī)器學(xué)習(xí)方法，這部分測(cè)試應(yīng)針對(duì)其特點(diǎn)，在測(cè)試用例設(shè)計(jì)時(shí)，改變傳統(tǒng)的需要準(zhǔn)確預(yù)期結(jié)果的思路，重心放在模型能力的驗(yàn)證上。

通過(guò)對(duì)某人機(jī)辯論系統(tǒng)的測(cè)試實(shí)踐，驗(yàn)證了方法和思路的可操作性。測(cè)試結(jié)果表明，測(cè)試方法可行，測(cè)試思路正確，對(duì)提高軟件質(zhì)量有突出的貢獻(xiàn)。此測(cè)試可以作為人機(jī)對(duì)話(huà)系統(tǒng)測(cè)試的基礎(chǔ)。

同時(shí)，本文提出的方法和思路還需要開(kāi)展更深入、充分的研究和試驗(yàn)，并應(yīng)用到人機(jī)對(duì)話(huà)系統(tǒng)的評(píng)估中。