亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        軟件測(cè)試技術(shù)在人機(jī)對(duì)話(huà)系統(tǒng)中的應(yīng)用研究

        2019-11-22 07:48:18林曉欲YuanTommy雷倩茹
        航空兵器 2019年5期
        關(guān)鍵詞:用戶(hù)模型系統(tǒng)

        林曉欲,Yuan Tommy,雷倩茹

        (1.洛陽(yáng)光電技術(shù)發(fā)展中心,河南 洛陽(yáng) 471000;2.約克大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,英國(guó) 約克 YO10 5GH)

        0 引 言

        人工智能技術(shù)毫無(wú)疑問(wèn)地被列為即將改變世界的突破性技術(shù)之一。而人機(jī)對(duì)話(huà)[1]是人工智能領(lǐng)域的一個(gè)子方向,通俗地講就是讓人可以通過(guò)人類(lèi)的語(yǔ)言(即自然語(yǔ)言:文字、語(yǔ)音,甚至兩者皆含)與計(jì)算機(jī)進(jìn)行交互,來(lái)完成確定任務(wù)的人與計(jì)算機(jī)之間的信息交換過(guò)程。[2]

        人機(jī)對(duì)話(huà)系統(tǒng)陸續(xù)上線(xiàn)使用,越來(lái)越貼近人類(lèi)的工作、學(xué)習(xí)和生活,其類(lèi)型多種多樣,狀態(tài)各異,對(duì)話(huà)目標(biāo)也各不相同,已經(jīng)滲透到社會(huì)的方方面面。人機(jī)對(duì)話(huà)系統(tǒng)的復(fù)雜性和普遍性也使人們意識(shí)到其質(zhì)量保證的重要性。

        人機(jī)對(duì)話(huà)系統(tǒng)的本質(zhì)是軟件通過(guò)一定的載體來(lái)達(dá)到其目標(biāo)。傳統(tǒng)軟件的質(zhì)量保證通常通過(guò)軟件測(cè)試來(lái)實(shí)現(xiàn)。人機(jī)對(duì)話(huà)系統(tǒng)既符合軟件產(chǎn)品的基本屬性,又具有其固有特點(diǎn)。針對(duì)其特點(diǎn),如何運(yùn)用軟件測(cè)試技術(shù)研究出一種有效的方法開(kāi)展測(cè)試,來(lái)達(dá)到對(duì)人機(jī)對(duì)話(huà)系統(tǒng)軟件質(zhì)量保證的目標(biāo),成為人機(jī)對(duì)話(huà)系統(tǒng)相關(guān)研究的熱點(diǎn)和難點(diǎn)。

        本文結(jié)合傳統(tǒng)的軟件測(cè)試方法,將8種基本對(duì)話(huà)類(lèi)型按照實(shí)現(xiàn)用途歸結(jié)為4類(lèi),并分析4類(lèi)對(duì)話(huà)系統(tǒng)的特征,提出針對(duì)性的測(cè)試方法和思路。將軟件測(cè)試技術(shù)用于英國(guó)約克大學(xué)開(kāi)發(fā)研究的某人機(jī)辯論系統(tǒng)中,通過(guò)測(cè)試工作,發(fā)現(xiàn)該系統(tǒng)的一些缺陷,提出了改進(jìn)建議。通過(guò)具體的對(duì)話(huà)系統(tǒng)測(cè)試實(shí)踐,驗(yàn)證了測(cè)試方案的有效性,為后續(xù)研究提供了基礎(chǔ)。

        1 對(duì)話(huà)系統(tǒng)

        1.1 基本對(duì)話(huà)類(lèi)型

        從文獻(xiàn)[3]資料中已經(jīng)認(rèn)識(shí)到的7種人類(lèi)基本類(lèi)型的對(duì)話(huà)是:說(shuō)服、調(diào)查(詢(xún)問(wèn))、發(fā)現(xiàn)、談判、信息查詢(xún)、審議、爭(zhēng)論。這7種是基于參與者有明確目標(biāo)的,即任務(wù)型對(duì)話(huà)系統(tǒng),如果再加上開(kāi)放域?qū)υ?huà),即聊天,那么基本的對(duì)話(huà)類(lèi)型為8種,如表1所示。

        目前,人機(jī)對(duì)話(huà)系統(tǒng)根據(jù)基本對(duì)話(huà)類(lèi)型和實(shí)現(xiàn)用途進(jìn)行歸類(lèi),可以分為4類(lèi):?jiǎn)柎?、任?wù)驅(qū)動(dòng)的多輪對(duì)話(huà)、推薦和開(kāi)放域聊天。

        (1)問(wèn)答:接近一個(gè)自然語(yǔ)言理解加信息檢索的過(guò)程,側(cè)重于一問(wèn)一答,即直接根據(jù)用戶(hù)的問(wèn)題給出精準(zhǔn)的答案?;緦?duì)話(huà)類(lèi)型中的發(fā)現(xiàn)、調(diào)查和信息查詢(xún)與該功能相對(duì)應(yīng)。

        (2)任務(wù)驅(qū)動(dòng)的多輪對(duì)話(huà):由于用戶(hù)需求比較復(fù)雜,有很多限制條件,可能需要分多輪進(jìn)行陳述,所以更是一個(gè)決策過(guò)程,需要機(jī)器在對(duì)話(huà)過(guò)程中不斷根據(jù)當(dāng)前的狀態(tài)決策下一步應(yīng)該采取的最優(yōu)動(dòng)作(如提供結(jié)果、詢(xún)問(wèn)特定限制條件、澄清或確認(rèn)需求等),從而最有效地輔助用戶(hù)完成服務(wù)獲取或解決問(wèn)題?;緦?duì)話(huà)類(lèi)型中的說(shuō)服、談判、商議和爭(zhēng)論與該功能相對(duì)應(yīng)。

        (3)推薦:根據(jù)當(dāng)前的用戶(hù)需求和歷史的用戶(hù)畫(huà)像主動(dòng)推薦用戶(hù)可能感興趣的信息或者服務(wù)?;緦?duì)話(huà)類(lèi)型與該功能沒(méi)有直接相關(guān),可以說(shuō)是對(duì)對(duì)話(huà)系統(tǒng)的技術(shù)衍生。常言道,需求不存在因?yàn)榧夹g(shù)不存在。在當(dāng)今信息爆發(fā)的時(shí)代,推薦技術(shù)在幫助用戶(hù)尋找信息、幫助服務(wù)商尋找客戶(hù)的環(huán)節(jié)中扮演了舉足輕重的地位。

        (4)開(kāi)放域聊天:在用戶(hù)沒(méi)有明確的信息或服務(wù)獲取需求時(shí)系統(tǒng)做出的回應(yīng)。自然語(yǔ)言聊天在現(xiàn)有的人機(jī)對(duì)話(huà)系統(tǒng)中,主要起到拉近距離、建立信任關(guān)系、情感陪伴、順滑對(duì)話(huà)過(guò)程(如在任務(wù)類(lèi)對(duì)話(huà)無(wú)法滿(mǎn)足用戶(hù)需求時(shí))和提高用戶(hù)粘性的作用?;緦?duì)話(huà)類(lèi)型中的聊天與該功能對(duì)應(yīng)。

        1.2 對(duì)話(huà)系統(tǒng)工作過(guò)程

        常見(jiàn)的對(duì)話(huà)系統(tǒng)工作過(guò)程主要為:系統(tǒng)首先理解人類(lèi)發(fā)出的信息,將其表示為一種內(nèi)部狀態(tài),然后根據(jù)對(duì)話(huà)狀態(tài)的政策采取相應(yīng)的行動(dòng),最后將行動(dòng)轉(zhuǎn)化為一種自然語(yǔ)言的表現(xiàn)形式,如圖1所示。主要由以下部分組成:自然語(yǔ)言理解(Natural Language Understanding,NLU)、對(duì)話(huà)狀態(tài)跟蹤(Dia-logue State Tracking,DST)、對(duì)話(huà)策略學(xué)習(xí)(Dialogue Policy Learning,DPL)、自然語(yǔ)言生成(Natural Language Generation,NLG)[4]。其中DST和DPL統(tǒng)稱(chēng)為對(duì)話(huà)管理(Dialogue Management,DM)[5],即根據(jù)對(duì)話(huà)歷史信息,決定對(duì)用戶(hù)的反應(yīng)。

        圖1 對(duì)話(huà)系統(tǒng)工作過(guò)程Fig.1 Dialogue system working process

        1.3 軟件測(cè)試方法[6]

        由于軟件開(kāi)發(fā)人員思維上的主觀局限性,且軟件系統(tǒng)的復(fù)雜性,軟件非常容易出錯(cuò)。而軟件一旦發(fā)生故障,造成的后果可能非常嚴(yán)峻。減少軟件缺陷、提高軟件質(zhì)量是一項(xiàng)艱巨的任務(wù)。

        軟件測(cè)試是為了發(fā)現(xiàn)軟件產(chǎn)品所存在的任何意義上的軟件缺陷,從而糾正這些軟件缺陷,使軟件系統(tǒng)更好地滿(mǎn)足用戶(hù)的需求[7]。從哲學(xué)觀點(diǎn)看,分析問(wèn)題和解決問(wèn)題的方法有兩種:白盒方法和黑盒方法。軟件測(cè)試沿用哲學(xué)思想,將測(cè)試方法也分為白盒測(cè)試方法和黑盒測(cè)試方法。

        白盒測(cè)試(White Box Testing)[8]又稱(chēng)結(jié)構(gòu)測(cè)試或者邏輯驅(qū)動(dòng)測(cè)試,是把測(cè)試對(duì)象看作一個(gè)打開(kāi)的盒子,如圖2所示。白盒測(cè)試需要測(cè)試軟件產(chǎn)品的內(nèi)部結(jié)構(gòu)和處理過(guò)程,不需要測(cè)試軟件產(chǎn)品的功能。白盒測(cè)試方法的覆蓋標(biāo)準(zhǔn)有邏輯覆蓋、循環(huán)覆蓋和基本路徑測(cè)試等。

        圖2 白盒測(cè)試Fig.2 White box testing

        黑盒測(cè)試(Black Box Testing)[9]又稱(chēng)功能測(cè)試或者數(shù)據(jù)驅(qū)動(dòng)測(cè)試,是根據(jù)軟件的規(guī)格對(duì)軟件進(jìn)行的測(cè)試,這類(lèi)測(cè)試不考慮軟件內(nèi)部的運(yùn)作原理,因此軟件對(duì)用戶(hù)來(lái)說(shuō)就像一個(gè)黑盒子,如圖3所示。軟件測(cè)試人員從用戶(hù)的角度,通過(guò)各種輸入和觀察軟件的各種輸出結(jié)果來(lái)發(fā)現(xiàn)軟件存在的缺陷,而不關(guān)心程序具體如何實(shí)現(xiàn)。黑盒測(cè)試的類(lèi)型有功能、性能、接口、兼容性、易用性等。黑盒測(cè)試方法的覆蓋標(biāo)準(zhǔn)為需求覆蓋。

        圖3 黑盒測(cè)試Fig.3 Black box testing

        2 人機(jī)對(duì)話(huà)系統(tǒng)測(cè)試策略

        2.1 對(duì)話(huà)系統(tǒng)應(yīng)用程序的特點(diǎn)

        對(duì)話(huà)系統(tǒng)應(yīng)用程序是一系列按照特定順序組織的計(jì)算機(jī)數(shù)據(jù)和指令的集合,既符合軟件的基本特點(diǎn),也具有其特殊性,主要有:不確定性和概率性、對(duì)大數(shù)據(jù)具有依賴(lài)性、隨機(jī)性的輸入/輸出、難以預(yù)測(cè)所有應(yīng)用場(chǎng)景、需要從過(guò)去的行為中不斷自我學(xué)習(xí)。具體表現(xiàn)是:

        (1)對(duì)話(huà)系統(tǒng)是由巨大而多樣的數(shù)據(jù)驅(qū)動(dòng)的,在做出任何決定之前都需要進(jìn)行處理;這些數(shù)據(jù)可以是任何格式,如文本、語(yǔ)音、圖像、視頻等,來(lái)源也各不相同;這些數(shù)據(jù)可能是一次性攝入的,也可能是一個(gè)連續(xù)的過(guò)程;數(shù)據(jù)是人機(jī)對(duì)話(huà)系統(tǒng)所采取的任何預(yù)測(cè)、決定或行動(dòng)的基礎(chǔ)。

        (2)對(duì)話(huà)系統(tǒng)是機(jī)器學(xué)習(xí)系統(tǒng),系統(tǒng)通過(guò)學(xué)習(xí)、訓(xùn)練來(lái)執(zhí)行某些動(dòng)作。根據(jù)需要和上下文,這些算法可能在種類(lèi)和復(fù)雜性上有所不同,可以組合多個(gè)算法來(lái)給出特定的期望輸出。

        (3)與第三方系統(tǒng)有豐富的接口,通常被應(yīng)用于其他更大的應(yīng)用程序以滿(mǎn)足最終的業(yè)務(wù)目標(biāo)。

        2.2 測(cè)試策略[10]

        2.2.1 基本測(cè)試策略

        人機(jī)對(duì)話(huà)的核心是利用對(duì)歷史數(shù)據(jù)的處理訓(xùn)練,得出可以在將來(lái)數(shù)據(jù)上有良好輸出的模型[11]。所以,對(duì)于測(cè)試而言,應(yīng)該關(guān)心數(shù)據(jù)模型在對(duì)待正常數(shù)據(jù)、邊界數(shù)據(jù)、異常數(shù)據(jù)作為輸入時(shí),模型的輸出是否能夠符合期望;數(shù)據(jù)模型在經(jīng)過(guò)訓(xùn)練后,用測(cè)試集數(shù)據(jù)預(yù)測(cè)的正確率如何。因此,應(yīng)開(kāi)展數(shù)據(jù)測(cè)試、分層測(cè)試、訓(xùn)練集和測(cè)試集對(duì)比測(cè)試。

        (1)開(kāi)展數(shù)據(jù)測(cè)試。用等價(jià)類(lèi)劃分、邊界值分析等方法進(jìn)行功能測(cè)試,尤其是邊界、異常數(shù)據(jù)測(cè)試,如輸入與訓(xùn)練時(shí)一樣的數(shù)據(jù)、與訓(xùn)練時(shí)完全不同的數(shù)據(jù)、訓(xùn)練時(shí)的邊界值等,看是否達(dá)到期望輸出;以此來(lái)驗(yàn)證模型對(duì)數(shù)據(jù)的容錯(cuò)能力,算法是否能夠通過(guò)迭代和對(duì)比來(lái)減少誤差;驗(yàn)證系統(tǒng)能夠接受來(lái)自各種來(lái)源和各種格式的數(shù)據(jù);驗(yàn)證所攝入的數(shù)據(jù)是按照目標(biāo)系統(tǒng)所期望的格式轉(zhuǎn)換。

        (2)開(kāi)展分層測(cè)試。針對(duì)人機(jī)對(duì)話(huà)系統(tǒng)的復(fù)雜性,對(duì)模型進(jìn)行分層測(cè)試。模型工作的過(guò)程是:數(shù)據(jù)引入、數(shù)據(jù)處理(清洗、拆分、拼接等)、特征工程、模型訓(xùn)練、模型上線(xiàn)。通過(guò)測(cè)試分層后每一個(gè)部分的功能、性能和各層的接口實(shí)現(xiàn)對(duì)模型的測(cè)試。

        (3)開(kāi)展訓(xùn)練集和測(cè)試集對(duì)比測(cè)試。對(duì)話(huà)策略學(xué)習(xí)的算法主要是機(jī)器根據(jù)數(shù)據(jù)特征和特征的權(quán)重來(lái)預(yù)測(cè)一個(gè)行為,是一個(gè)結(jié)果概率。因此,使用訓(xùn)練數(shù)據(jù)集來(lái)理解和建模系統(tǒng)行為,并使用測(cè)試數(shù)據(jù)來(lái)驗(yàn)證系統(tǒng)的準(zhǔn)確性或響應(yīng)也是一種測(cè)試方法。

        值得注意的是,傳統(tǒng)的測(cè)試需要有準(zhǔn)確的預(yù)期結(jié)果,這是邏輯思維的結(jié)果。而人機(jī)對(duì)話(huà)(除了問(wèn)答)往往沒(méi)有準(zhǔn)確的預(yù)期結(jié)果,也不需要保證每次數(shù)據(jù)的正確性。應(yīng)該考察即便數(shù)據(jù)有一點(diǎn)問(wèn)題,最后得出的模型效果還不差這樣的結(jié)果;需要驗(yàn)證隨著數(shù)據(jù)規(guī)模的增長(zhǎng),數(shù)據(jù)結(jié)果的正確性和優(yōu)化效果。因此,對(duì)人機(jī)對(duì)話(huà)系統(tǒng)測(cè)試的思路應(yīng)該從注重“邏輯分析”轉(zhuǎn)換到“知識(shí)學(xué)習(xí)能力的驗(yàn)證”上。

        主要測(cè)試類(lèi)型有:

        (1)功能測(cè)試:用等價(jià)類(lèi)劃分、邊界值分析等方法進(jìn)行數(shù)據(jù)、模型過(guò)程的功能劃分,測(cè)試功能的正確實(shí)現(xiàn);模型是否能夠根據(jù)處理數(shù)據(jù)的量從少到多而自動(dòng)不斷優(yōu)化、調(diào)整輸出。

        (2)性能測(cè)試:用場(chǎng)景法確定不同的性能需求,測(cè)試模型在處理數(shù)據(jù)時(shí)的效率(學(xué)習(xí)過(guò)程、cpu占用率、內(nèi)存消耗等);在同一平臺(tái)通過(guò)不斷點(diǎn)擊運(yùn)行,以及快速退出和快速進(jìn)入,處理大量數(shù)據(jù)、空數(shù)據(jù)等觀察性能指標(biāo)的變化等。

        (3)接口測(cè)試:測(cè)試模型分層后數(shù)據(jù)的正確轉(zhuǎn)換和傳輸;測(cè)試模型輸入輸出的正確性。

        (4)易用性測(cè)試:測(cè)試模型是否有良好的用戶(hù)交互;測(cè)試具體使用時(shí),是否有良好的告知用戶(hù)的提示,不能一直處于安裝或等待狀態(tài)等;測(cè)試模型是否有人性化的參數(shù)調(diào)整入口,供運(yùn)營(yíng)人員以及測(cè)試人員對(duì)上線(xiàn)后、上線(xiàn)前進(jìn)行調(diào)整。

        (5)兼容性測(cè)試:測(cè)試不同的操作系統(tǒng)下運(yùn)行對(duì)話(huà)系統(tǒng)的兼容性;測(cè)試軟件與其他軟件共同運(yùn)行的情況。

        2.2.2 特殊測(cè)試策略

        (1)問(wèn)答系統(tǒng)DM測(cè)試策略

        問(wèn)答系統(tǒng)DM主要實(shí)現(xiàn)過(guò)程是:在問(wèn)句的類(lèi)型識(shí)別與分類(lèi)的基礎(chǔ)上,進(jìn)行文本的檢索[12]以及知識(shí)庫(kù)的匹配。也就是分為問(wèn)題分析、信息檢索、答案抽取三部分。其路徑排列的數(shù)量非常大,因此,在測(cè)試中不可能運(yùn)行路徑的每一種組合,所以要進(jìn)行針對(duì)性測(cè)試,通過(guò)對(duì)系統(tǒng)業(yè)務(wù)需求和業(yè)務(wù)流程的分析,從宏觀角度考慮用例應(yīng)該包括哪些基本流和備選流。通過(guò)用例場(chǎng)景[13]來(lái)描述流經(jīng)用例的路徑,繼而確定從用例開(kāi)始到結(jié)束遍歷這條路徑上所有的基本流和備選流,形成比較高的場(chǎng)景覆蓋率,指導(dǎo)測(cè)試的實(shí)施,以保證軟件的質(zhì)量。

        測(cè)試首先抽取業(yè)務(wù)流程圖,即從系統(tǒng)需求說(shuō)明書(shū)或相關(guān)文檔中提取出相關(guān)的業(yè)務(wù)流程,形成業(yè)務(wù)流程圖;其次,確定關(guān)系圖,即根據(jù)具體的業(yè)務(wù)流程圖,畫(huà)出基本流和備選流的關(guān)系圖;然后,確定觸發(fā)條件,即經(jīng)過(guò)以上對(duì)系統(tǒng)(子系統(tǒng))的運(yùn)作流程的分析,根據(jù)業(yè)務(wù)流程圖,按照傳統(tǒng)的用例分析方法分析出每個(gè)基本流與備選流的觸發(fā)條件;最后,進(jìn)行場(chǎng)景分析,即根據(jù)確定的基本流和備選流的關(guān)系,再加上確定的觸發(fā)條件的描述,確定出不同的用例場(chǎng)景。

        測(cè)試類(lèi)型與基本測(cè)試類(lèi)型相同。需特別說(shuō)明,在功能測(cè)試時(shí),通過(guò)備選流的測(cè)試,保證對(duì)系統(tǒng)異常情況的測(cè)試覆蓋。

        (2)多輪對(duì)話(huà)系統(tǒng)DM測(cè)試策略

        多輪對(duì)話(huà)系統(tǒng)DM就是在NLU(領(lǐng)域分類(lèi)和意圖識(shí)別、槽填充)的基礎(chǔ)上,進(jìn)行對(duì)話(huà)狀態(tài)的追蹤(DST)以及對(duì)話(huà)策略的學(xué)習(xí)(DPL),以便于DPL階段策略的學(xué)習(xí)以及NLG階段澄清需求、引導(dǎo)用戶(hù)、詢(xún)問(wèn)、確認(rèn)、對(duì)話(huà)結(jié)束語(yǔ)等。

        產(chǎn)生的狀態(tài)數(shù)跟意圖和槽值對(duì)的數(shù)成指數(shù)關(guān)系,與問(wèn)答系統(tǒng)DM測(cè)試策略相同。同樣通過(guò)用例場(chǎng)景來(lái)描述流經(jīng)用例的路徑,形成比較高的場(chǎng)景覆蓋率,以保證軟件的質(zhì)量。

        其特殊性在于,存在上下文處理及決策過(guò)程,由于多輪交互時(shí),有很多信息在交互的上文中已經(jīng)出現(xiàn),用戶(hù)不會(huì)再在當(dāng)前的問(wèn)題中進(jìn)行重復(fù),所以需要一個(gè)上下文的記憶模塊,根據(jù)所有對(duì)話(huà)歷史信息推斷當(dāng)前對(duì)話(huà)狀態(tài)St和用戶(hù)目標(biāo)。常用的方法是運(yùn)用人工規(guī)則、生成式模型、判別式模型、Web Rank等,因此,對(duì)這部分的測(cè)試可以與基本測(cè)試策略相同。

        測(cè)試方法為問(wèn)答系統(tǒng)DM測(cè)試方法與基本測(cè)試方法結(jié)合。測(cè)試實(shí)現(xiàn)為問(wèn)答系統(tǒng)DM測(cè)試實(shí)現(xiàn)與基本測(cè)試實(shí)現(xiàn)結(jié)合。

        (3)推薦系統(tǒng)DM測(cè)試策略

        推薦系統(tǒng)DM就是進(jìn)行用戶(hù)興趣的匹配以及推薦內(nèi)容評(píng)分、排序和篩選等,以便于NLG階段生成更好的給用戶(hù)推薦的內(nèi)容。對(duì)推薦系統(tǒng)測(cè)試可以算作大數(shù)據(jù)測(cè)試和算法測(cè)試。

        基于大數(shù)據(jù)算法的測(cè)試方法可以用結(jié)果反饋的方式去測(cè)試,即對(duì)結(jié)果進(jìn)行實(shí)時(shí)監(jiān)控,發(fā)現(xiàn)異常后及時(shí)反饋;也可以自己構(gòu)造一些數(shù)據(jù),然后用算法去跑自己構(gòu)造的數(shù)據(jù),檢查結(jié)果是否正確。

        推薦系統(tǒng)的測(cè)試實(shí)現(xiàn)方式分別為:從所有的結(jié)果當(dāng)中進(jìn)行抽樣,然后進(jìn)行基本的業(yè)務(wù)測(cè)試;自己構(gòu)造測(cè)試數(shù)據(jù),然后對(duì)這些數(shù)據(jù)的輸出結(jié)果進(jìn)行測(cè)試;基于效果的監(jiān)控,通過(guò)監(jiān)控算法上線(xiàn)后點(diǎn)擊率、平均瀏覽時(shí)長(zhǎng)、平均停留時(shí)長(zhǎng)、留存情況、覆蓋率等常用的評(píng)估指標(biāo)是否有上升。

        (4)開(kāi)放域聊天系統(tǒng)DM測(cè)試策略

        聊天系統(tǒng)DM就是對(duì)上下文進(jìn)行序列建模、對(duì)候選回復(fù)進(jìn)行評(píng)分、排序和篩選等,以便于NLG階段生成更好的回復(fù)。其本質(zhì)與多輪對(duì)話(huà)系統(tǒng)相同。

        測(cè)試方法為問(wèn)答系統(tǒng)DM測(cè)試方法與基本測(cè)試方法結(jié)合。測(cè)試實(shí)現(xiàn)為問(wèn)答系統(tǒng)DM測(cè)試實(shí)現(xiàn)與基本測(cè)試實(shí)現(xiàn)結(jié)合。

        3 對(duì)某人機(jī)對(duì)話(huà)系統(tǒng)的測(cè)試實(shí)踐

        3.1 被測(cè)軟件概述

        約克大學(xué)人工智能小組開(kāi)發(fā)的“人機(jī)對(duì)話(huà)系統(tǒng)”對(duì)話(huà)模型DE[14]是建立在正式辯論系統(tǒng)DC的基礎(chǔ)上的辯論系統(tǒng)模型。該系統(tǒng)旨在提高辯論系統(tǒng)基本對(duì)話(huà)模型在辯論過(guò)程中發(fā)現(xiàn)錯(cuò)誤論點(diǎn)和常見(jiàn)錯(cuò)誤的能力。

        設(shè)計(jì)者使用Java編程語(yǔ)言構(gòu)建了一個(gè)功能完整的原型,對(duì)對(duì)話(huà)模型DE進(jìn)行操作。這個(gè)系統(tǒng)可以讓用戶(hù)與其就有爭(zhēng)議的問(wèn)題進(jìn)行辯論。

        系統(tǒng)有五個(gè)主要部分:界面部分、對(duì)話(huà)部分、承諾部分、計(jì)劃部分和知識(shí)庫(kù)部分。系統(tǒng)設(shè)計(jì)時(shí)對(duì)表達(dá)方式、庫(kù)集規(guī)則、對(duì)話(huà)規(guī)則進(jìn)行了規(guī)定。該辯論系統(tǒng)架構(gòu)如圖4所示。

        圖4 某辯論系統(tǒng)架構(gòu)Fig.4 Debate system architecture

        3.2 測(cè)試內(nèi)容與方法

        辯論系統(tǒng)本質(zhì)上是一個(gè)以說(shuō)服為目的的多輪對(duì)話(huà)系統(tǒng),所以參考本文2.2節(jié)的測(cè)試策略開(kāi)展測(cè)試。

        目前,對(duì)人機(jī)系統(tǒng)的測(cè)試研究,無(wú)論是方法還是標(biāo)準(zhǔn)都處于探索階段,還未形成規(guī)范和標(biāo)準(zhǔn),因此,本次測(cè)試是一次研究性的測(cè)試。由于該系統(tǒng)的輸入為列表選擇輸入,輸出為文字輸出,因此,本次測(cè)試涉及對(duì)話(huà)系統(tǒng)中的對(duì)話(huà)狀態(tài)跟蹤和對(duì)話(huà)策略學(xué)習(xí),不涉及語(yǔ)音識(shí)別和文字輸入,不涉及語(yǔ)音輸出。

        本次人機(jī)對(duì)話(huà)系統(tǒng)測(cè)試應(yīng)符合以下技術(shù)要求:

        (1)系統(tǒng)的每個(gè)特性應(yīng)至少被一個(gè)正常測(cè)試用例和一個(gè)被認(rèn)可的異常測(cè)試用例所覆蓋;

        (2)測(cè)試用例的輸入應(yīng)至少包括有效等價(jià)類(lèi)值和邊界數(shù)據(jù)值;

        (3)測(cè)試系統(tǒng)的輸出及其格式;

        (4)對(duì)不同的實(shí)際問(wèn)題應(yīng)外加相應(yīng)的專(zhuān)門(mén)測(cè)試。

        考慮測(cè)試投入,結(jié)合軟件特點(diǎn),制定對(duì)應(yīng)的測(cè)試策略如下:

        (1)根據(jù)重要程度,排定測(cè)試的優(yōu)先順序?yàn)椋汗δ苄詼y(cè)試、易用性測(cè)試、兼容性測(cè)試、維護(hù)性測(cè)試;

        (2)與委托方溝通項(xiàng)目建設(shè)經(jīng)驗(yàn),針對(duì)委托方關(guān)注的業(yè)務(wù)內(nèi)容進(jìn)行重點(diǎn)測(cè)試;

        (3)根據(jù)對(duì)軟件特點(diǎn)進(jìn)行分析,應(yīng)重點(diǎn)針對(duì)人機(jī)對(duì)話(huà)系統(tǒng)中決策的轉(zhuǎn)換場(chǎng)景進(jìn)行測(cè)試;

        (4)使用歷史已有的測(cè)試數(shù)據(jù)輔助測(cè)試分析;

        (5)對(duì)測(cè)試中提出的軟件問(wèn)題,應(yīng)與軟件承研單位充分溝通、確認(rèn)。

        經(jīng)分析,本次測(cè)試需要開(kāi)展的測(cè)試類(lèi)型為功能性測(cè)試(包括接口測(cè)試)、易用性測(cè)試、維護(hù)性測(cè)試和兼容性測(cè)試。

        對(duì)界面部分、對(duì)話(huà)部分、承諾部分、計(jì)劃部分、知識(shí)庫(kù)部分、輸入、知識(shí)響應(yīng)、規(guī)則等以及識(shí)別出來(lái)的重要場(chǎng)景進(jìn)行測(cè)試項(xiàng)分解,并進(jìn)行易用性、維護(hù)性和兼容性分析,結(jié)果如表2所示。

        測(cè)試內(nèi)容充分性分析:

        (1)對(duì)軟件中的功能需求及非功能需求進(jìn)行全面分析,并結(jié)合用戶(hù)提出的需求,共整理出19項(xiàng)測(cè)試需求,對(duì)應(yīng)19個(gè)測(cè)試項(xiàng)目,細(xì)化為64個(gè)測(cè)試子項(xiàng),實(shí)現(xiàn)測(cè)試需求對(duì)可測(cè)軟件需求100%覆蓋。

        (2)描述測(cè)試環(huán)境與實(shí)際運(yùn)行環(huán)境一致,滿(mǎn)足測(cè)試要求。

        3.3 測(cè)試環(huán)境

        測(cè)試環(huán)境配置如表3所示。

        人機(jī)對(duì)話(huà)系統(tǒng)在計(jì)算機(jī)系統(tǒng)中完成其功能,本次測(cè)試環(huán)境為計(jì)算機(jī)系統(tǒng),因此,測(cè)試環(huán)境與真實(shí)環(huán)境一致,無(wú)環(huán)境差異。

        表2 功能測(cè)試需求分解Table 2 Test demand decomposition

        表3 動(dòng)態(tài)測(cè)試環(huán)境配置列表Table 3 Dynamic test environment configuration list

        3.4 測(cè)試設(shè)計(jì)

        對(duì)于確定的測(cè)試內(nèi)容,按照分解的測(cè)試子項(xiàng)設(shè)計(jì)測(cè)試用例。每個(gè)單獨(dú)的測(cè)試都進(jìn)行了詳細(xì)描述。測(cè)試用例的基本表達(dá)如表4所示。

        表4 測(cè)試用例Table 4 Test cases

        注:>表示當(dāng)前活動(dòng)的角色。

        3.5 測(cè)試執(zhí)行

        按照測(cè)試用例的描述執(zhí)行測(cè)試。

        3.6 測(cè)試總結(jié)

        本次測(cè)試運(yùn)行測(cè)試用例125例,借用133個(gè)對(duì)話(huà)場(chǎng)景[15],開(kāi)展了功能性(含接口)、易用性、兼容性、維護(hù)性測(cè)試,覆蓋了用戶(hù)提出的需求。

        被測(cè)軟件在系統(tǒng)智能、用戶(hù)體驗(yàn)、系統(tǒng)價(jià)值和用戶(hù)界面幾個(gè)方面均滿(mǎn)足使用要求,特別是DE對(duì)話(huà)模型和所采取的策略實(shí)現(xiàn)了開(kāi)發(fā)目的;被測(cè)軟件具有良好的兼容性和可維護(hù)性。

        測(cè)試過(guò)程中提出軟件問(wèn)題5個(gè),其中功能性2個(gè)、易用性3個(gè),均為一般性問(wèn)題。問(wèn)題具體描述為:

        問(wèn)題1:測(cè)試人員扮演支持CP方,在經(jīng)過(guò)多輪辯論后,同意了對(duì)方的觀點(diǎn)(反方),這時(shí)候裁判并沒(méi)有進(jìn)行裁決,而是讓辯論繼續(xù)。測(cè)試人員認(rèn)為此測(cè)試結(jié)果與需求不一致。

        問(wèn)題2:幫助菜單中的部分功能未實(shí)現(xiàn)。

        問(wèn)題3:辯論過(guò)程中,運(yùn)用“I don’t think” 或者“Why”作為論述開(kāi)始時(shí),界面表示中不容易找到支持觀點(diǎn)的陳述。

        問(wèn)題4:辯論過(guò)程中,運(yùn)用“I don’t think” 或者“Why”作為論述開(kāi)始時(shí),可在用戶(hù)觀點(diǎn)和機(jī)器觀點(diǎn)里進(jìn)行多項(xiàng)選擇,系統(tǒng)不能及時(shí)給出限制提示。

        問(wèn)題5:幫助菜單內(nèi)容多次點(diǎn)擊會(huì)在屏幕上多個(gè)顯示,系統(tǒng)不能進(jìn)行限制。

        與開(kāi)發(fā)方進(jìn)行溝通,對(duì)于問(wèn)題1,開(kāi)發(fā)方認(rèn)為該系統(tǒng)設(shè)計(jì)的目的是用于教學(xué)的辯論系統(tǒng),所以在辯論策略設(shè)計(jì)上還考慮了辯論內(nèi)容覆蓋的全面性,基于這個(gè)考慮,裁判進(jìn)行裁決的時(shí)機(jī)會(huì)跟真實(shí)辯論過(guò)程不同。針對(duì)該問(wèn)題,開(kāi)發(fā)方會(huì)在相應(yīng)文件中進(jìn)行說(shuō)明。此外,接受其余4個(gè)問(wèn)題并進(jìn)行改進(jìn)。

        4 總 結(jié)

        本文通過(guò)研究不同對(duì)話(huà)系統(tǒng)的特點(diǎn),提出相應(yīng)的軟件測(cè)試方法和思路。經(jīng)研究表明,傳統(tǒng)的測(cè)試類(lèi)型同樣適用于人機(jī)對(duì)話(huà)系統(tǒng)測(cè)試,但是在測(cè)試策略制定時(shí),需要考慮由于人機(jī)對(duì)話(huà)系統(tǒng)中用到大量機(jī)器學(xué)習(xí)方法,這部分測(cè)試應(yīng)針對(duì)其特點(diǎn),在測(cè)試用例設(shè)計(jì)時(shí),改變傳統(tǒng)的需要準(zhǔn)確預(yù)期結(jié)果的思路,重心放在模型能力的驗(yàn)證上。

        通過(guò)對(duì)某人機(jī)辯論系統(tǒng)的測(cè)試實(shí)踐,驗(yàn)證了方法和思路的可操作性。測(cè)試結(jié)果表明,測(cè)試方法可行,測(cè)試思路正確,對(duì)提高軟件質(zhì)量有突出的貢獻(xiàn)。此測(cè)試可以作為人機(jī)對(duì)話(huà)系統(tǒng)測(cè)試的基礎(chǔ)。

        同時(shí),本文提出的方法和思路還需要開(kāi)展更深入、充分的研究和試驗(yàn),并應(yīng)用到人機(jī)對(duì)話(huà)系統(tǒng)的評(píng)估中。

        猜你喜歡
        用戶(hù)模型系統(tǒng)
        一半模型
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無(wú)人機(jī)系統(tǒng)
        ZC系列無(wú)人機(jī)遙感系統(tǒng)
        重要模型『一線(xiàn)三等角』
        重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        關(guān)注用戶(hù)
        3D打印中的模型分割與打包
        關(guān)注用戶(hù)
        精品人妻一区三区蜜桃| 亚洲AV无码乱码1区久久| 第九色区Aⅴ天堂| 国产一区二区三区口爆在线| 精品+无码+在线观看| 日韩精品无码免费专区网站| 韩国精品一区二区三区| 最新亚洲视频一区二区| 完整版免费av片| 中国熟妇人妻xxxxx| 欧美刺激午夜性久久久久久久| 亚洲一区二区三区1区2区| 插插射啊爱视频日a级| 激情航班h版在线观看| 午夜亚洲国产理论片亚洲2020| 国产极品嫩模大尺度在线播放 | 亚洲av成人一区二区三区本码| 中国丰满熟妇xxxx性| 天天躁日日躁狠狠躁一区| 国产精品一区二区三区女同| 久久亚洲道色综合久久| 怡红院a∨人人爰人人爽| 偷亚洲偷国产欧美高清| 亚洲天堂av高清在线| 乱人伦中文视频在线| 成人性生交大片免费看r| 国产精品麻豆A在线播放| 天堂av网手机线上天堂| 男女做爰猛烈啪啪吃奶动| 国产在线精品一区二区在线看| 中文字幕中文字幕人妻黑丝| 最新国产精品拍自在线观看| 天堂影院一区二区三区四区| 久久99精品这里精品动漫6| 深夜一区二区三区视频在线观看| 男女高潮免费观看无遮挡| 欧美自拍丝袜亚洲| 亚洲一区二区三区av无| 欧美日韩精品乱国产| 欧美午夜精品久久久久久浪潮| 国产女主播强伦视频网站|