秦 穎
(北京外國(guó)語(yǔ)大學(xué)人工智能與人類語(yǔ)言實(shí)驗(yàn)室,北京 100089)
生成可被理解的、流暢且符合語(yǔ)言環(huán)境和要求的自然語(yǔ)言是人工智能的重要體現(xiàn)。自然語(yǔ)言生成NLG(Natural Language Generation)廣義上包含了所有機(jī)器生成語(yǔ)言的任務(wù),涵蓋機(jī)器翻譯、自動(dòng)文摘、對(duì)話系統(tǒng)、故事和新聞寫作、圖像與視頻標(biāo)題生成等。根據(jù)生成語(yǔ)言時(shí)是否有參照,本文將NLG任務(wù)分為參照型和開放型2大類,如圖1所示。
Figure 1 Main research directions of general natural language generation圖1 廣義自然語(yǔ)言生成任務(wù)的主要研究方向
參照型任務(wù)依據(jù)給定的文本或圖像等生成語(yǔ)言。常見(jiàn)的生成需求有:(1)形式轉(zhuǎn)換任務(wù),例如機(jī)器翻譯、圖像/視頻標(biāo)題生成等。機(jī)器翻譯將原文轉(zhuǎn)換為另一種語(yǔ)言的譯文;圖像/視頻標(biāo)題生成任務(wù)為圖像/視頻生成相應(yīng)的描述文字,即從圖像語(yǔ)義表達(dá)變?yōu)槲淖终Z(yǔ)義表達(dá)。(2)語(yǔ)義壓縮任務(wù),主要包括自動(dòng)文摘和句子簡(jiǎn)化等文本到文本的生成任務(wù),在保持給定原文核心內(nèi)容不變的情況下,實(shí)現(xiàn)語(yǔ)義壓縮,生成更簡(jiǎn)短的文本。
開放型生成任務(wù)往往沒(méi)有明確的生成參照,目的是實(shí)現(xiàn)基于自然語(yǔ)言的交流或創(chuàng)作,包括人機(jī)對(duì)話、機(jī)器寫作和文本擴(kuò)展等典型任務(wù)。
不難看出,從機(jī)器翻譯、自動(dòng)文摘、圖像標(biāo)題生成到人機(jī)對(duì)話、機(jī)器寫作,生成任務(wù)的開放性逐漸增大。
近年來(lái)語(yǔ)言生成技術(shù)取得了令人矚目的進(jìn)展,而生成語(yǔ)言的質(zhì)量評(píng)價(jià)問(wèn)題越來(lái)越突出。首先,代價(jià)高、周期長(zhǎng)、重用性差的人工評(píng)價(jià)仍作為各個(gè)任務(wù)的黃金標(biāo)準(zhǔn)(Gold Standard),自動(dòng)評(píng)價(jià)的性能較差,無(wú)法代替人工。其次,語(yǔ)言質(zhì)量評(píng)價(jià)的研究發(fā)展緩慢,已經(jīng)成為制約NLG發(fā)展的、亟待解決的難點(diǎn)和瓶頸問(wèn)題[1 - 4]。下面以機(jī)器翻譯評(píng)測(cè)平臺(tái)WMT(Workshop of Machine Translation)近15年的人工與自動(dòng)評(píng)價(jià)方法的變化為例。2006年人工評(píng)價(jià)標(biāo)準(zhǔn)是譯文流利度和充分性的5段打分,自動(dòng)評(píng)價(jià)采用的是BLEU (BiLingual Evaluation Understudy)算法[5,6]。之后增加了人工排序和句法成分等更細(xì)粒度的評(píng)價(jià),自動(dòng)評(píng)價(jià)增加了METEOR、TER(Translation Error Rate)和GTM(Graph Theory Matching)等10種算法[7]。為保證人工評(píng)價(jià)的可信度,增加了多人評(píng)價(jià)的一致性衡量指標(biāo)。2009年后不再對(duì)譯文打分,只對(duì)不同系統(tǒng)譯文進(jìn)行排序,同時(shí)增加人工對(duì)機(jī)器譯文的編輯,采取HTER(Human-mediated Translation Edit Rate)指標(biāo)反映譯文的質(zhì)量[8]。為擴(kuò)大人工評(píng)價(jià)的范圍,2010年開始采取眾包方式(Crowd-sourced)評(píng)估各個(gè)機(jī)器翻譯系統(tǒng)。自動(dòng)評(píng)價(jià)方面,2012年增加了無(wú)參考譯文的質(zhì)量估計(jì)[9]。之后又在人工排序評(píng)價(jià)前,加入了對(duì)系統(tǒng)譯文的聚類處理。質(zhì)量估計(jì)的粒度從句子級(jí)擴(kuò)展到詞匯級(jí)。2014年提出了新的排序模型,以更好地利用人工排序結(jié)果,質(zhì)量評(píng)估的粒度也更多更細(xì)。2016年提出了單語(yǔ)直接評(píng)測(cè)法(Direct Assessment)[10],以避免參考譯文對(duì)人工評(píng)價(jià)的影響。
生成語(yǔ)言質(zhì)量評(píng)價(jià)是研發(fā)過(guò)程的重要反饋,不但反映生成系統(tǒng)性能,很大程度還能指導(dǎo)生成技術(shù)的研究,并且在訓(xùn)練時(shí)用于生成模型的參數(shù)調(diào)整[11]。
本文對(duì)近年來(lái)NLG任務(wù)的有關(guān)文獻(xiàn)梳理后發(fā)現(xiàn),不同任務(wù)的評(píng)價(jià)方法差異較大,同時(shí)又有很強(qiáng)的關(guān)聯(lián)性,存在諸多可相互借鑒的思想和方法,有必要從整體上分析機(jī)器生成語(yǔ)言的質(zhì)量評(píng)價(jià)問(wèn)題,通過(guò)不同任務(wù)評(píng)價(jià)的對(duì)比,實(shí)現(xiàn)相互借鑒和融合,探索新的評(píng)價(jià)方法。
下文中,首先介紹人工評(píng)價(jià)的特點(diǎn)及關(guān)注的主要問(wèn)題。然后是自動(dòng)評(píng)價(jià)算法的介紹和優(yōu)缺點(diǎn)分析,介紹開放的評(píng)價(jià)資源,并總結(jié)各算法之間的聯(lián)系和交叉應(yīng)用情況;最后是對(duì)機(jī)器生成語(yǔ)言質(zhì)量評(píng)價(jià)的總結(jié)和展望。
人工評(píng)價(jià)機(jī)器生成語(yǔ)言的質(zhì)量具有主觀性,盡管存在代價(jià)高、周期長(zhǎng)、不一致和不確定等問(wèn)題,人工評(píng)價(jià)目前仍是各個(gè)生成任務(wù)最準(zhǔn)確、最認(rèn)可的方式。人工評(píng)價(jià)主要有以下幾個(gè)關(guān)注的問(wèn)題:
常見(jiàn)的評(píng)價(jià)者有系統(tǒng)研發(fā)人員、語(yǔ)言專業(yè)人士和評(píng)價(jià)志愿者。評(píng)價(jià)者的選擇影響評(píng)價(jià)的結(jié)果,選擇不同的評(píng)價(jià)者時(shí)對(duì)評(píng)價(jià)質(zhì)量的控制方法也不同。一般而言,系統(tǒng)研發(fā)人員和語(yǔ)言專業(yè)人士具有較好的背景知識(shí),可信度相對(duì)較高。評(píng)價(jià)可由一人完成,也可多人評(píng)價(jià)。一人評(píng)價(jià)容易受個(gè)人主觀因素的影響而不穩(wěn)定[12]。多人評(píng)價(jià)的結(jié)果也會(huì)存在波動(dòng)性。為保證多人評(píng)價(jià)的可信度,需要檢查評(píng)價(jià)結(jié)果的一致性(Agreement)。衡量一致性的指標(biāo)常用Kappa系數(shù)[13]。Kappa系數(shù)K的計(jì)算方法如式(1)所示:
(1)
其中,P(A)代表2個(gè)評(píng)價(jià)結(jié)果相同的概率,P(E)為基于隨機(jī)猜測(cè)時(shí)2個(gè)評(píng)價(jià)結(jié)果相同的概率。Kappa系數(shù)越大說(shuō)明一致性越高。Kappa系數(shù)在0.2以下,說(shuō)明幾乎沒(méi)有一致性;0.2~0.4表示一致性較低;0.4~0.6表示一致性中等程度;0.6~0.8表示一致性較高;0.8以上代表幾乎完全一致[14]。
基于眾包平臺(tái)如Mechanical Turk(MTurk)[15]和CrowdFlower(www. crowdflower.com)的志愿者評(píng)價(jià)是較為廉價(jià)的人工評(píng)價(jià)方式。眾包評(píng)價(jià)的關(guān)鍵是評(píng)價(jià)結(jié)果的質(zhì)量控制,著名的有MACE(Multi-Annotator Competence Estimation)工具[16]。針對(duì)評(píng)價(jià)者的投機(jī)取巧等作弊行為,基于MTurk平臺(tái)也提出了多種控制質(zhì)量的方法[17]。
內(nèi)部評(píng)價(jià)(Intrinsic Evaluation)不涉及語(yǔ)言生成系統(tǒng)的設(shè)置和使用效果,是針對(duì)生成語(yǔ)言內(nèi)在質(zhì)量進(jìn)行的評(píng)價(jià),如語(yǔ)言的流利度、正確性和合理性等。而外部評(píng)價(jià)(Extrinsic Evaluation)考查的是生成系統(tǒng)達(dá)成目標(biāo)的效度,是從系統(tǒng)的外部表現(xiàn)或系統(tǒng)作為其他應(yīng)用的組成時(shí)對(duì)其他部分的影響角度進(jìn)行的評(píng)價(jià)。顯然,效度與系統(tǒng)應(yīng)用和設(shè)計(jì)目的密切相關(guān)[18]。例如評(píng)價(jià)京東客服機(jī)器人對(duì)話系統(tǒng)Alphasales時(shí),使用了客服電話轉(zhuǎn)人工率、72小時(shí)內(nèi)再次撥打的比例等與任務(wù)相關(guān)的外部評(píng)價(jià)指標(biāo)。
生成語(yǔ)言質(zhì)量評(píng)價(jià)方式主要有分類(Classification)、評(píng)分(Scoring)和排序(Ranking)3種。一般認(rèn)為,排序的評(píng)價(jià)難度低于分類和評(píng)分,且一致性也比評(píng)價(jià)分高,更適用于系統(tǒng)之間的比較[19]。此外,還有基于閱讀時(shí)間的測(cè)量法(Reading-Time Measure),是根據(jù)評(píng)價(jià)者做出判斷所需要的閱讀時(shí)間來(lái)區(qū)分不同的文本質(zhì)量[20],一般來(lái)講,評(píng)閱時(shí)間越長(zhǎng),生成語(yǔ)言的質(zhì)量越差,因此是一種間接的評(píng)價(jià)方式。
人工評(píng)價(jià)結(jié)果作為黃金標(biāo)準(zhǔn)也不是完美的,經(jīng)常會(huì)出現(xiàn)評(píng)價(jià)者曲解評(píng)價(jià)任務(wù),或給出不合邏輯的、異常的評(píng)價(jià)。為了讓評(píng)價(jià)者更好地理解評(píng)價(jià)任務(wù)和評(píng)價(jià)標(biāo)準(zhǔn),可通過(guò)事先培訓(xùn)來(lái)提高評(píng)價(jià)的一致性。另一種提高人工評(píng)價(jià)一致性的方式是給出參考答案,比如評(píng)價(jià)機(jī)器翻譯時(shí)提供專家譯文作為評(píng)價(jià)的參考,但這樣的代價(jià)會(huì)更高,評(píng)價(jià)者的判斷也容易受參考答案的影響。
還有很多復(fù)雜的因素會(huì)影響人工評(píng)價(jià)的一致性,如評(píng)價(jià)文本的長(zhǎng)度和復(fù)雜度、評(píng)價(jià)的數(shù)目等。
內(nèi)部評(píng)價(jià)常根據(jù)不同任務(wù)從不同的語(yǔ)言質(zhì)量維度進(jìn)行,主要指標(biāo)有連貫性、內(nèi)容性、結(jié)構(gòu)性、正確性、風(fēng)格和整體質(zhì)量等。任務(wù)不同,維度也有所不同,比如機(jī)器翻譯一般不去評(píng)價(jià)譯文的語(yǔ)言風(fēng)格和內(nèi)容的豐富性,重點(diǎn)關(guān)注譯文的流利度和準(zhǔn)確度。而評(píng)價(jià)幽默寫作的質(zhì)量時(shí),則會(huì)增加文檔的趣味性這一維度。評(píng)價(jià)基于多篇文檔的機(jī)器文摘時(shí),會(huì)增加信息冗余度這一指標(biāo)。以下是機(jī)器翻譯、自動(dòng)文摘和人機(jī)對(duì)話任務(wù)常見(jiàn)的人工評(píng)價(jià)標(biāo)準(zhǔn)。
2.5.1 機(jī)器翻譯
1964年美國(guó)語(yǔ)言自動(dòng)處理咨詢委員會(huì)ALPAC(Automatic Language Processing Advisory Committee)人工評(píng)價(jià)機(jī)器譯文包括2個(gè)角度:一是譯文的忠實(shí)度(Fidelity),二是譯文的可理解度(Intelligibility)。我國(guó)863機(jī)器翻譯評(píng)測(cè)中的人工評(píng)分標(biāo)準(zhǔn)包括充分性(Adequacy)和流利度(Fluency),評(píng)分共分6個(gè)等級(jí)。充分性衡量譯文多大程度體現(xiàn)了原文的語(yǔ)義,流利度反映譯文的可讀性。
從2009年開始,WMT開始采取眾包方式對(duì)參賽系統(tǒng)譯文進(jìn)行質(zhì)量排序,并且在亞馬遜網(wǎng)站上開發(fā)了著名的MTurk評(píng)價(jià)平臺(tái)?;谠撈脚_(tái),可計(jì)算人工干預(yù)的翻譯編輯率HTER,即人工修訂機(jī)器譯文成為可接受的譯文需要進(jìn)行的編輯量[15],值越小質(zhì)量越高。
以上是內(nèi)部評(píng)價(jià)機(jī)器譯文質(zhì)量的標(biāo)準(zhǔn)。外部評(píng)價(jià)機(jī)器翻譯的質(zhì)量,可讓評(píng)價(jià)者基于機(jī)器譯文進(jìn)行閱讀理解測(cè)試[15]。
2.5.2 自動(dòng)文摘
自動(dòng)文摘任務(wù)有多種類型[21]:根據(jù)文摘的來(lái)源文檔數(shù)目可分為單文檔文摘(Single Document Summarization)和多文檔文摘(Multi-Document Summarization);根據(jù)文摘的策略可分為抽取式文摘(Extractive Summarization)和抽象式文摘(Abstractive Summarization)。而查詢文摘(Query-Focused)和通用文摘(Generic)的區(qū)別是前者圍繞查詢相關(guān)的內(nèi)容組成文摘,后者是以核心內(nèi)容構(gòu)成的文摘。從輸出風(fēng)格上又可分為標(biāo)示型文摘(Indicative Summary)和信息型文摘(Informative Summary)。標(biāo)示型文摘只需要給出文檔最核心的主題,而信息型文摘?jiǎng)t要列出全部主題的內(nèi)容。針對(duì)不同的文摘類型,質(zhì)量評(píng)價(jià)指標(biāo)也各不相同。通用型文摘強(qiáng)調(diào)摘要內(nèi)容的重要性(查詢文摘重點(diǎn)是主題的相關(guān)性)、內(nèi)容的覆蓋面、句子的連貫性和信息冗余度等。
內(nèi)部評(píng)價(jià)文摘質(zhì)量的標(biāo)準(zhǔn)主要包括:無(wú)冗余(Non-Redundancy)、結(jié)構(gòu)和連貫(Structure and Coherence)、重點(diǎn)突出(Focus)和整體質(zhì)量(Quality)狀況[22]。有的標(biāo)準(zhǔn)還包括文摘的語(yǔ)法性(Grammaticality)和參照清晰度(Referential Clarity)等指標(biāo)[21]。
在文檔理解會(huì)議DUC(Document Understanding Conference)上,評(píng)價(jià)者以句子為單位評(píng)價(jià)機(jī)器文摘的內(nèi)容和語(yǔ)言質(zhì)量,其中語(yǔ)言質(zhì)量指標(biāo)又進(jìn)一步分為語(yǔ)法性(Grammaticality)、內(nèi)斂性(Cohesion)和連貫性(Coherence)3個(gè)方面[23]。后來(lái)在文本分析會(huì)議TAC(Text Analysis Confe- rence)上,人工評(píng)價(jià)機(jī)器文摘采用了金字塔(Pyramid)法和反應(yīng)度(Responsiveness)2種標(biāo)準(zhǔn)[24]。金字塔法要求人工標(biāo)注文摘的內(nèi)容單元(Content Unit),基于文摘中包含內(nèi)容單元的多少和權(quán)重計(jì)算得分。反應(yīng)度是根據(jù)用戶信息需求對(duì)機(jī)器文摘進(jìn)行的直觀印象評(píng)分。
外部評(píng)價(jià)將文摘置于特定的應(yīng)用中來(lái)評(píng)價(jià)文摘對(duì)系統(tǒng)的影響,如將文摘置于類似游戲場(chǎng)景下,利用猜測(cè)下一個(gè)詞的游戲來(lái)評(píng)價(jià)文摘的信息含量[25];以及基于問(wèn)答方式測(cè)試讀者對(duì)文摘的理解程度[21]等方法。
2.5.3 對(duì)話系統(tǒng)
對(duì)話系統(tǒng)的類型很多(如圖1所示),不同類型的對(duì)話系統(tǒng)功能和目的不同,評(píng)價(jià)標(biāo)準(zhǔn)差異較大[26]:(1)任務(wù)型對(duì)話系統(tǒng)強(qiáng)調(diào)對(duì)話的內(nèi)容和策略,評(píng)價(jià)主要從任務(wù)實(shí)現(xiàn)(Task-Success)和對(duì)話效率(Dialogue Efficiency)2個(gè)方面進(jìn)行,可分為用戶滿意(User Satisfaction Modeling)和用戶模擬(User Simulation)2種評(píng)價(jià)模型。(2)社會(huì)型對(duì)話屬于開放的、非結(jié)構(gòu)化的交談,傳統(tǒng)的評(píng)價(jià)方式是圖靈測(cè)試(Turing Test)。粗粒度的評(píng)價(jià)標(biāo)準(zhǔn)包括對(duì)話應(yīng)答的恰當(dāng)性(Appropriateness)和類人性(Human Likeness)。細(xì)粒度的評(píng)價(jià)標(biāo)準(zhǔn)涉及具體的語(yǔ)言特征,如對(duì)話的連貫性和主題的維持(Maintaining)、主題的深度(Topic Depth)、對(duì)話的廣度(Conversational Breadth)等。(3)問(wèn)答型對(duì)話的質(zhì)量評(píng)價(jià)經(jīng)常借鑒信息檢索的評(píng)價(jià)標(biāo)準(zhǔn),如準(zhǔn)確率和召回率等。
文獻(xiàn)[27]針對(duì)一個(gè)口語(yǔ)對(duì)話系統(tǒng)的生成話語(yǔ)設(shè)計(jì)了3項(xiàng)人工評(píng)價(jià)的內(nèi)容:對(duì)話的信息度(Informativeness)、自然度(Naturalness)和總體質(zhì)量(Quality)。可控聊天機(jī)器人的關(guān)鍵是對(duì)話的可控性,文獻(xiàn)[28]提出的評(píng)價(jià)生成話語(yǔ)可控制性的指標(biāo)有:重復(fù)性(Repetition)、特異性(Specificity)、應(yīng)答相關(guān)性(Response-Relatedness)和提問(wèn)能力(Question-Asking)。最近谷歌公司開放域多輪對(duì)話系統(tǒng)Meena的人工評(píng)價(jià)標(biāo)準(zhǔn)是回復(fù)的合理性(Sensibleness)和內(nèi)容的具體性(Specificity)2個(gè)指標(biāo)的平均值,即SSA(Sensibleness and Specificity Average)評(píng)價(jià)指標(biāo)[29]。實(shí)驗(yàn)表明,SSA與人們對(duì)對(duì)話系統(tǒng)的喜好程度正相關(guān)。
人工評(píng)價(jià)聊天機(jī)器人的對(duì)話質(zhì)量目前尚沒(méi)有確定統(tǒng)一的標(biāo)準(zhǔn)。評(píng)價(jià)時(shí)通常會(huì)設(shè)計(jì)很多問(wèn)題進(jìn)行問(wèn)卷調(diào)查,比如“對(duì)話進(jìn)行是否順暢?參與對(duì)話的程度如何?你認(rèn)為對(duì)方是人還是機(jī)器人?是否愿意再聊一次?”等,這些問(wèn)題主觀性強(qiáng),答案與受訪者對(duì)系統(tǒng)的期望值有關(guān)。開放型對(duì)話系統(tǒng)的質(zhì)量與多種因素有關(guān),這些因素的權(quán)衡和比較在評(píng)價(jià)時(shí)十分重要。
為研究多輪對(duì)話中對(duì)整體對(duì)話質(zhì)量有貢獻(xiàn)的重要因素,文獻(xiàn)[28]發(fā)現(xiàn):(1)控制對(duì)話的重復(fù)率對(duì)所有人工判斷極其重要;(2)問(wèn)更多的問(wèn)題能提升對(duì)話系統(tǒng)的吸引力;(3)控制特異性即減少使用通用話語(yǔ),能提高聊天的吸引力、興趣和感知;(4)評(píng)價(jià)者對(duì)非通用機(jī)器人的錯(cuò)誤容忍度較低,當(dāng)出現(xiàn)不流利或無(wú)意義的語(yǔ)句時(shí)評(píng)分通常較低。整體上,與用戶體驗(yàn)關(guān)系密切的因素包括聊天內(nèi)容的趣味性、對(duì)話的流利度、傾聽(tīng)性和少問(wèn)問(wèn)題等。
廉價(jià)、快速、一致和可重用是自動(dòng)評(píng)價(jià)的優(yōu)勢(shì)。自動(dòng)評(píng)價(jià)算法通常與不同語(yǔ)言生成任務(wù)相適應(yīng)。自動(dòng)評(píng)價(jià)也分外部評(píng)價(jià)和內(nèi)部評(píng)價(jià)。內(nèi)部評(píng)價(jià)研究最多的是基于參考答案的評(píng)價(jià),即將機(jī)器生成文本與人工參考答案進(jìn)行相似度的比較,越相似的認(rèn)為質(zhì)量越高。
根據(jù)NLG研究文獻(xiàn),本文歸納了自動(dòng)評(píng)價(jià)算法通常要滿足的要求:(1)算法有足夠的質(zhì)量區(qū)分度,能夠區(qū)分不同質(zhì)量的機(jī)器生成文本,或者能識(shí)別人工文本與機(jī)器生成文本。(2)可解釋性,也就是區(qū)分不同質(zhì)量的文本的依據(jù)要合理。(3)對(duì)評(píng)價(jià)系統(tǒng)和數(shù)據(jù)的依賴度,一般要求評(píng)價(jià)算法獨(dú)立于系統(tǒng)和評(píng)價(jià)數(shù)據(jù)。(4)健壯性,即算法對(duì)評(píng)價(jià)數(shù)據(jù)變動(dòng)的敏感程度[30],健壯的算法應(yīng)能適應(yīng)評(píng)價(jià)內(nèi)容和領(lǐng)域的變化。(5)可重用性,算法應(yīng)能重復(fù)使用,并保持多次評(píng)價(jià)結(jié)果不變。(6)可靠性,評(píng)價(jià)結(jié)果具有較高的可信度和準(zhǔn)確度。
常用與人工評(píng)價(jià)的相關(guān)度來(lái)衡量自動(dòng)評(píng)價(jià)算法的性能,如皮爾遜相關(guān)系數(shù)(Pearson Coefficient)、斯皮爾曼相關(guān)系數(shù)(Spearman Coefficient)和Kendall tau等指標(biāo),并用威廉姆斯測(cè)試(Williams’ test)[31]判斷相關(guān)的顯著程度。
3.2.1 機(jī)器翻譯
機(jī)器翻譯中經(jīng)典的、影響深遠(yuǎn)的自動(dòng)評(píng)價(jià)算法是BLEU。評(píng)價(jià)的思想是比較參考譯文和機(jī)器譯文在語(yǔ)言形式上的相似度,計(jì)算單位是共現(xiàn)的n-gram數(shù)目。BLEU得分的計(jì)算如式(2)所示:
(2)
其中,pn是不同n-gram的鉗位匹配率,wn是相應(yīng)n-gram的權(quán)重,N一般取到4。BP是對(duì)長(zhǎng)度小于參考譯文r的機(jī)器譯文c的懲罰因子。
BLEU算法的優(yōu)點(diǎn)是與語(yǔ)言無(wú)關(guān)(Language Independent),簡(jiǎn)單易行。盡管一直作為WMT平臺(tái)的官方評(píng)價(jià)標(biāo)準(zhǔn)(https://github.com/jhclark/multeval),BLEU評(píng)價(jià)還有很多問(wèn)題,如當(dāng)n較大時(shí)匹配的幾率很小,n-gram得分經(jīng)常為0,因此目前采取的是Smoothed BLEU[32],處理了n-gram為0的情況。但是,Smoothed BLEU仍未能改變機(jī)械匹配和n-gram稀疏帶來(lái)的問(wèn)題[33,34]。盡管算法可基于多個(gè)參考譯文進(jìn)行評(píng)價(jià),但正確的譯文往往是多樣的,機(jī)械匹配難以評(píng)價(jià)同義或近義的譯法。BLEU算法實(shí)際上是一種準(zhǔn)確率評(píng)價(jià)指標(biāo)。算法中譯文長(zhǎng)度的懲罰因子設(shè)定也具有主觀性。針對(duì)上述問(wèn)題,有不少改進(jìn)研究,如EBLEU(Enhanced BLEU)算法[35]綜合了準(zhǔn)確率和召回率、調(diào)和平均以及多種長(zhǎng)度懲罰因子指標(biāo);AMBER(A Modified Bleu,Enhanced Ranking)評(píng)價(jià)[36]則是對(duì)比了10種懲罰因子、4種匹配策略和多種譯文輸入類型而提出的。這些工作一定程度上提升了BLEU算法的性能,但評(píng)價(jià)結(jié)果還是受到不少質(zhì)疑[37],很多文獻(xiàn)指出BLEU得分并不足以反映譯文質(zhì)量的細(xì)微差異。
與BLEU類似的、基于語(yǔ)言形式匹配的評(píng)價(jià)算法還有不少,如NIST(National Institute of Standards and Technology)[38]和METEOR[39]等,這類自動(dòng)評(píng)價(jià)算法的困難都是無(wú)法深入到譯文的句法和語(yǔ)義層面進(jìn)行相似度的比較,基于詞匯或n-gram的匹配只能在較淺的層面上檢查譯文的充分性和流利度。
無(wú)參考譯文時(shí),自動(dòng)評(píng)價(jià)算法一般要提取原文和機(jī)器譯文的語(yǔ)言特征并結(jié)合外部資源進(jìn)行譯文質(zhì)量的估計(jì),判定詞匯級(jí)、句子級(jí)的翻譯質(zhì)量等級(jí)或進(jìn)行排序。WMT目前使用的機(jī)器翻譯質(zhì)量估計(jì)平臺(tái)是QuEst[40]。QuEst+ +提取的語(yǔ)言特征已多達(dá)172種[41],但整體上質(zhì)量估計(jì)的性能低于有參考譯文的評(píng)價(jià)性能,更多的應(yīng)用是檢查機(jī)器譯文中的特異點(diǎn),進(jìn)行譯后編輯。
3.2.2 自動(dòng)文摘
外部評(píng)價(jià)文摘質(zhì)量時(shí)關(guān)注的是文摘對(duì)其他任務(wù)的影響。文獻(xiàn)[42]提出了關(guān)聯(lián)相關(guān)度(Relevance Correlation)評(píng)價(jià)方法,將生成文摘置于檢索任務(wù)中,根據(jù)摘要而不是原文進(jìn)行檢索時(shí),檢索性能相對(duì)下降的度量被定義為關(guān)聯(lián)相關(guān)度。
內(nèi)部評(píng)價(jià)算法主要評(píng)價(jià)文摘的語(yǔ)言質(zhì)量和信息度[21]?;谌斯⒖嘉恼淖詣?dòng)評(píng)價(jià)算法以內(nèi)容的重疊程度為依據(jù)計(jì)算文摘的信息度[43]。常用的指標(biāo)有句子共選(Sentence Co-selection)率、準(zhǔn)確率、召回率、F1值和ROUGE(Recall-Oriented Understudy for Gisting Evaluation)[44]。其中,ROUGE是DUC會(huì)議的官方評(píng)價(jià)標(biāo)準(zhǔn)。與BLEU類似,ROUGE也是一種求n-gram重疊率的算法。ROUGE有很多變體,包括ROUGE-N,ROUGE-L,ROUGE-W,ROUGE-S和ROUGE-SU等[45]?;綬OUGE-N的通用計(jì)算如式(3)所示,評(píng)價(jià)工具也是公開的(https://github.com/summanlp/evaluation/tree/master/ROUGE-RELEASE-1.5.5)。
(3)
其中,N表示n-gram的長(zhǎng)度,{ReferenceSummaries}表示參考文摘構(gòu)成的集合,S代表字符串,Countmatch(gramn)表示生成文摘與參考文摘共現(xiàn)的n-gram最大數(shù)目;Count(gramn)的含義是參考文摘中全部n-gram的數(shù)目。ROUGE給出每一個(gè)n-gram的得分,是一種召回率指標(biāo)。因此,ROUGE評(píng)價(jià)主要反映的是文摘涵蓋信息的豐富程度。
ROUGE的優(yōu)點(diǎn)是它是一種獨(dú)立于語(yǔ)言的評(píng)價(jià)方法,實(shí)現(xiàn)簡(jiǎn)單。不同的變體體現(xiàn)了不同的評(píng)價(jià)側(cè)重點(diǎn),比如ROUGE-N能夠反映詞序關(guān)系,但當(dāng)N值較大時(shí),ROUGE得分通常很低,影響了評(píng)價(jià)的區(qū)分度;ROUGE-S計(jì)算的是skip-gram,即不要求連續(xù)的n-gram匹配,因而能更好地關(guān)注句子的內(nèi)容而不是其中詞匯的順序,但是不連續(xù)區(qū)間的大小又不容易確定。
ROUGE比較適用于抽取式文摘,而不太適合抽象式文摘的評(píng)價(jià)。抽象式文摘強(qiáng)調(diào)的是核心觀點(diǎn)和概念的抽取,可用不同于原文的句子使摘要內(nèi)容更清晰[21],但ROUGE基于簡(jiǎn)單匹配難以反映生成句子的準(zhǔn)確率和流利度。實(shí)際上,文章中承載信息的形式很多,包括事實(shí)詞(Factoids)、相同意義單位和重述等,ROUGE只是從n-gram重疊率這個(gè)角度反映文摘的信息,算法同樣不能深入到語(yǔ)義層面分析摘要的意義。
自動(dòng)文摘任務(wù)較開放,人工參考文摘的變化較多。研究者們開發(fā)了多種基于相似度比較的評(píng)價(jià)算法,著名的有QARLA評(píng)價(jià)框架[46]。如果沒(méi)有參考文摘做參照,評(píng)價(jià)算法往往通過(guò)比較機(jī)器文摘和原文檔的語(yǔ)義相似度、核心內(nèi)容的相似度來(lái)判斷文摘的質(zhì)量,例如求原文與文摘的主題相似度和詞匯意義相似度的潛在語(yǔ)義分析法LSA(Latent Semantic Analysis)[47],以及基于詞中心度的評(píng)價(jià)算法[48],中心詞代表的是向量空間文檔簇的中心。
3.2.3 圖像標(biāo)題生成
圖像標(biāo)題生成(Image Captioning)是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要方向,屬于跨模態(tài)的語(yǔ)言生成任務(wù),也稱圖像標(biāo)注(Image Labeling)。
針對(duì)同一幅圖像,不同人給出的描述可能完全不同,但可能都是好的標(biāo)題,因此圖像標(biāo)題生成任務(wù)的開放性更大。研究者們也嘗試用BLEU、ROUGE等算法評(píng)價(jià)生成的標(biāo)題,結(jié)果發(fā)現(xiàn),基于人工標(biāo)題和生成標(biāo)題匹配的自動(dòng)評(píng)價(jià)算法和人工評(píng)價(jià)結(jié)果很難有較高的一致性[49-51]。近年來(lái)出現(xiàn)了針對(duì)圖像標(biāo)題生成特有的評(píng)價(jià)算法,如CIDEr(Consensus-based Image Description Evaluation)[49]、SPICE(Semantic Propositional Image Caption Evalution)和神經(jīng)網(wǎng)絡(luò)判別模型等。CIDEr算法對(duì)n-gram利用TF-IDF(Term Frequency- Inversed Document Frequency)加權(quán)的方式計(jì)算生成標(biāo)題與多個(gè)參考標(biāo)題的一致性,力求得到不同參考標(biāo)題共同關(guān)注的內(nèi)容。
設(shè)第i幅圖像的參考標(biāo)題句子集合為Si={si1,si2,…,sim},m是句子數(shù)目,n-gramwk在參考標(biāo)題的句子sij以及在生成標(biāo)題句子ci中出現(xiàn)的次數(shù)分別為hk(sij)和hk(ci),基于TF-IDF對(duì)n-gramwk的加權(quán)值gk(sij)如式(4)所示:
(4)
其中,Ω表示n-gram詞表,I是圖像集合。
長(zhǎng)度為n的n-gram的CIDEr得分如式(5)所示:
(5)
其中,gn()為n-gram函數(shù)。
再結(jié)合n-gram的權(quán)重,最終CIDEr得分形式如式(6)所示:
(6)
CIDEr算法開源了評(píng)價(jià)工具包(https://github.com/tylin/coco-caption)和評(píng)價(jià)服務(wù)器[50]。算法與語(yǔ)言無(wú)關(guān),評(píng)價(jià)思想也是比較n-gram的相似度,其特點(diǎn)是利用了加權(quán)方式反映出多樣化的人工標(biāo)題中共同關(guān)注的圖像要素,其優(yōu)缺點(diǎn)基本與BLEU和ROUGE的相同,不再贅述。
SPICE是從語(yǔ)義命題內(nèi)容角度提出的評(píng)價(jià)圖像標(biāo)題質(zhì)量的方法[1]。將標(biāo)題解析為場(chǎng)景圖(Scene Graphs),場(chǎng)景圖對(duì)對(duì)象、屬性和關(guān)系進(jìn)行編碼。圖中的語(yǔ)義關(guān)系被視為邏輯命題的連接。基于圖中對(duì)象類別、關(guān)系和屬性構(gòu)成的三元組判斷生成標(biāo)題和參考標(biāo)題的語(yǔ)義相似度,最終以F1值表示標(biāo)題質(zhì)量的高低。SPICE算法也有公開的工具(http://panderson.me/spice)。SPICE借助于場(chǎng)景圖解析標(biāo)題所描述的對(duì)象、關(guān)系和屬性,更能從圖像內(nèi)容層面實(shí)現(xiàn)評(píng)價(jià),因此取得了較好的評(píng)價(jià)性能。SPICE算法適用于圖像標(biāo)題類較簡(jiǎn)短句子的評(píng)價(jià),在機(jī)器翻譯等復(fù)雜評(píng)價(jià)任務(wù)上的嘗試還沒(méi)有開展。
圖像標(biāo)題的質(zhì)量評(píng)價(jià)還可以采用判別器模型[52]:輸入圖像、人工標(biāo)題和生成標(biāo)題,訓(xùn)練一個(gè)模型,根據(jù)概率得分判別是人工標(biāo)題還是機(jī)器生成的標(biāo)題。計(jì)算如式(7)所示:
(7)
3.2.4 對(duì)話系統(tǒng)
與機(jī)器翻譯等有參照的生成任務(wù)相比,對(duì)話有以下的特點(diǎn):首先生成語(yǔ)言的內(nèi)容由系統(tǒng)決定,而不是參照文本或圖像;其次對(duì)話語(yǔ)言多呈現(xiàn)口語(yǔ)化,句子相對(duì)簡(jiǎn)單,語(yǔ)言的復(fù)雜度比機(jī)器翻譯小。自動(dòng)評(píng)價(jià)對(duì)話質(zhì)量的主要困難來(lái)自任務(wù)的開放性內(nèi)容。
如果有人工應(yīng)答做參考,可借用機(jī)器翻譯、信息檢索等評(píng)價(jià)指標(biāo)如BLEU、DISTINCT1/2、Hits@K和knowledgeprecision/recall/F1等評(píng)價(jià)應(yīng)答的質(zhì)量[53]。不同指標(biāo)反映了生成應(yīng)答在不同層面的質(zhì)量:F1反映的是應(yīng)答在字級(jí)別的性能,BLEU得分主要反映詞匯級(jí)的性能,而DISTINCT指標(biāo)用于衡量應(yīng)答的多樣性。針對(duì)知識(shí)型對(duì)話的應(yīng)答質(zhì)量,文獻(xiàn)[54]將生成的句子和系統(tǒng)知識(shí)在unigram層面計(jì)算準(zhǔn)確率、召回率和F1值。也有基于多種距離函數(shù)來(lái)定義準(zhǔn)確率、召回率和F1值的方法評(píng)價(jià)應(yīng)答質(zhì)量的研究[55]。
但是文獻(xiàn)[27]指出,F(xiàn)1、BLEU和DISTINCT等指標(biāo)用于評(píng)價(jià)基于數(shù)據(jù)驅(qū)動(dòng)的、端到端方式的對(duì)話系統(tǒng)生成的應(yīng)答時(shí),只能略微地反映出人工評(píng)價(jià)的思想。算法評(píng)價(jià)在系統(tǒng)級(jí)有較高的可信度,但在句子級(jí)的可信度很差。不同算法的性能還與特定的數(shù)據(jù)和系統(tǒng)有關(guān)。
神經(jīng)網(wǎng)絡(luò)也被用于對(duì)對(duì)話質(zhì)量進(jìn)行評(píng)價(jià),文獻(xiàn)[56]嘗試了對(duì)抗學(xué)習(xí)(Adversarial Learning)的評(píng)價(jià)方法:訓(xùn)練一個(gè)生成對(duì)抗網(wǎng)絡(luò),以判別器的性能反映對(duì)話的質(zhì)量。但是,作者沒(méi)有評(píng)估判別器的評(píng)分能否作為評(píng)價(jià)對(duì)話質(zhì)量的可行性。有研究者指出,利用對(duì)抗學(xué)習(xí)評(píng)價(jià)對(duì)話質(zhì)量的可行性并不樂(lè)觀[57]。
針對(duì)開放性很強(qiáng)的生成任務(wù),語(yǔ)言生成模型的困惑度PPL(PerPLexity)被用于評(píng)價(jià)人對(duì)于對(duì)話系統(tǒng)的喜歡程度。研究發(fā)現(xiàn),PPL與人類喜歡程度負(fù)相關(guān)[29]。PPL其實(shí)是語(yǔ)言模型的評(píng)價(jià)指標(biāo),只能從統(tǒng)計(jì)意義上間接地體現(xiàn)生成應(yīng)答的質(zhì)量。PPL是一個(gè)指數(shù)值,模型的微小改變可能引起PPL的較大改變,PPL值的改變和人們對(duì)生成語(yǔ)言質(zhì)量的感知并不成比例。
機(jī)器無(wú)法做到真正理解語(yǔ)言。對(duì)話系統(tǒng)所做的努力是讓機(jī)器產(chǎn)出的結(jié)果看起來(lái)像是理解了人類語(yǔ)言后才發(fā)出的響應(yīng),越是接近自然人的響應(yīng)結(jié)果,越能體現(xiàn)智能性,對(duì)話應(yīng)答的質(zhì)量也越高。因此,對(duì)話的外部評(píng)價(jià)主要從應(yīng)答的適宜程度和類人程度角度進(jìn)行。
3.2.5 其他語(yǔ)言生成任務(wù)
句子簡(jiǎn)化(Sentence Simplification)通過(guò)替換復(fù)雜單詞、簡(jiǎn)化復(fù)雜的句法結(jié)構(gòu)、刪去次要成分等方式重寫給定的句子,生成簡(jiǎn)單短小的句子。句子簡(jiǎn)化屬于文本到文本的生成任務(wù)之一[58]。為衡量簡(jiǎn)短句的質(zhì)量,文獻(xiàn)[58]采用了可讀性標(biāo)準(zhǔn)Flesch-Kincaid得分和SARI得分(可讀性得分的計(jì)算工具 https://github.com/mmautner/readability)。BLEU得分也被用于評(píng)價(jià),但文獻(xiàn)[59]發(fā)現(xiàn)BLEU得分與人工流利度評(píng)分的相關(guān)度低,但正相關(guān);與充分性評(píng)分的相關(guān)度更低,且負(fù)相關(guān)。
故事生成(Storytelling)屬于創(chuàng)意寫作。給定故事的開頭等提示信息,由機(jī)器自動(dòng)生成后續(xù)的故事內(nèi)容。故事生成也是開放域的生成任務(wù),質(zhì)量評(píng)價(jià)十分困難。文獻(xiàn)[60]用語(yǔ)言分析法評(píng)價(jià)故事生成的連續(xù)性。評(píng)價(jià)內(nèi)容分為2項(xiàng),第1項(xiàng)是獨(dú)立于故事的質(zhì)量評(píng)價(jià),語(yǔ)言特征包括句子長(zhǎng)度、語(yǔ)法、詞匯多樣性、詞頻和句法復(fù)雜度等8項(xiàng)。第2項(xiàng)是與故事有關(guān)句子的質(zhì)量評(píng)價(jià),語(yǔ)言特征包括詞匯選擇、風(fēng)格匹配度和實(shí)體共指等。文獻(xiàn)[61]基于一個(gè)常識(shí)故事結(jié)尾續(xù)寫的語(yǔ)料庫(kù),提出了一個(gè)基于故事理解的自動(dòng)評(píng)價(jià)框架——故事完型測(cè)試(Story Cloze Test):系統(tǒng)根據(jù)故事前面的句子完成最后一句的續(xù)寫,實(shí)際上是從正反2種故事結(jié)尾答案中做出選擇,類似完形填空,從而實(shí)現(xiàn)自動(dòng)評(píng)價(jià)。文獻(xiàn)[62]提出的自動(dòng)評(píng)價(jià)無(wú)需和人工故事進(jìn)行比較,而是用故事生成模型的困惑度和提示排名精確度(Prompt Ranking Accuracy)來(lái)評(píng)估流利度和輸出對(duì)輸入的依賴程度。
機(jī)器新聞寫作的質(zhì)量主要從讀者的接受程度考慮。由于機(jī)器新聞寫作同時(shí)有負(fù)面的應(yīng)用,即假新聞(Fake News)的生成,因此,新聞寫作方面較多的研究是檢測(cè)新聞的真假[63],而不是評(píng)價(jià)生成新聞的質(zhì)量。
文獻(xiàn)[64]指出,一個(gè)能很好地預(yù)測(cè)機(jī)器寫作與人工寫作相似性的評(píng)價(jià)方法并不一定能成為一個(gè)好的預(yù)測(cè)器,好的預(yù)測(cè)器能夠站在讀者角度預(yù)測(cè)寫作的有效性和有用性。
3.2.6 不同任務(wù)算法之間的聯(lián)系與應(yīng)用
NLG各任務(wù)評(píng)價(jià)之間有較強(qiáng)的相關(guān)性,一些自動(dòng)評(píng)價(jià)算法實(shí)現(xiàn)了跨任務(wù)應(yīng)用。本文匯總了經(jīng)典自動(dòng)評(píng)價(jià)算法在多種不同生成任務(wù)上的應(yīng)用情況,如表1所示。其中,MT表示機(jī)器翻譯,AS表示自動(dòng)文摘,HD表示人機(jī)對(duì)話,IC表示圖像標(biāo)題生成,ST表示故事生成。
Table 1 Application of automatic evaluation algorithms in different tasks
基于參考答案和生成文本相似度的評(píng)價(jià)算法如BLEU、ROUGE等獲得了最廣泛的應(yīng)用,成為多數(shù)自動(dòng)評(píng)價(jià)算法的基礎(chǔ)。盡管BLEU和ROUGE等在生成語(yǔ)言質(zhì)量評(píng)價(jià)方面的結(jié)果并不理想,但仍然是官方認(rèn)可的標(biāo)準(zhǔn)之一。圖像標(biāo)題的CIDEr評(píng)價(jià)算法需要很多人工參考標(biāo)題來(lái)獲得一致的評(píng)價(jià)內(nèi)容,SPICE因?yàn)樾枰獙⒕渥咏馕鰹閳?chǎng)景圖,在復(fù)雜句子上的應(yīng)用有限。PPL是一種統(tǒng)計(jì)算法,主要反映模型的多樣性,并不能真正反映生成語(yǔ)言的質(zhì)量,一般在缺少或不便提供參考答案時(shí)用困惑度來(lái)評(píng)價(jià)機(jī)器生成的語(yǔ)言的質(zhì)量。
自動(dòng)評(píng)價(jià)的穩(wěn)定性和可靠性影響因素與算法參數(shù)有關(guān)。與參考答案進(jìn)行相似度比較的評(píng)價(jià)方法中,參考答案的數(shù)目是一個(gè)影響因素。研究表明[38],BLEU和NIST對(duì)參考譯文的數(shù)目并不敏感,多個(gè)參考答案對(duì)評(píng)價(jià)性能的提升并不明顯。同樣的結(jié)論也出現(xiàn)在自動(dòng)文摘的評(píng)價(jià)ROUGE算法中[12];文獻(xiàn)[38]同時(shí)指出,評(píng)價(jià)樣本的數(shù)量其實(shí)對(duì)評(píng)價(jià)結(jié)果的穩(wěn)定性和可靠性影響更大,要得到具有統(tǒng)計(jì)意義的結(jié)果,樣本要足夠多。
算法性能還與特定的數(shù)據(jù)和系統(tǒng)有關(guān)。自動(dòng)評(píng)價(jià)區(qū)分一般質(zhì)量與高質(zhì)量的生成文本比較困難。對(duì)于質(zhì)量較差的生成文本,自動(dòng)評(píng)價(jià)似乎與人工評(píng)價(jià)的評(píng)價(jià)結(jié)果更趨一致,但對(duì)高質(zhì)量的文本和中等質(zhì)量的文本,自動(dòng)評(píng)價(jià)與人工的評(píng)價(jià)相關(guān)度較差[27]。文獻(xiàn)[65]研究了多種評(píng)價(jià)算法的健壯性,更換場(chǎng)景、更換人物、共享場(chǎng)景和共享人物4種情況都對(duì)圖像標(biāo)題的評(píng)價(jià)結(jié)果產(chǎn)生影響。
最后,自動(dòng)評(píng)價(jià)往往高估(Overestimate)生成文本的質(zhì)量,部分得分較高的系統(tǒng)實(shí)際生成語(yǔ)言的質(zhì)量并不好[27,66]。
機(jī)器正在以各種方式大量生成自然語(yǔ)言,生成語(yǔ)言的質(zhì)量評(píng)價(jià)不可或缺又異常復(fù)雜。人工對(duì)生成語(yǔ)言的質(zhì)量評(píng)價(jià)相對(duì)準(zhǔn)確可靠,具有可解釋性和診斷性等特點(diǎn),但是代價(jià)高、周期長(zhǎng),且評(píng)價(jià)結(jié)果不可重用、不可擴(kuò)展,從而嚴(yán)重制約了NLG的研發(fā),迫切需要高性能的自動(dòng)評(píng)價(jià)算法[67]。但是,現(xiàn)在還沒(méi)有任何自動(dòng)評(píng)價(jià)算法可以充分捕捉到文本質(zhì)量的全貌,即能夠代理人類的判斷。一個(gè)好的評(píng)價(jià)算法不但能評(píng)價(jià)生成文本的質(zhì)量,還能夠兼顧答案的多樣性(Diversity),這對(duì)于帶有創(chuàng)造性、開放領(lǐng)域的生成任務(wù)而言尤其重要[67]。
語(yǔ)言質(zhì)量評(píng)價(jià)應(yīng)與文本生成任務(wù)分離,獨(dú)立于生成任務(wù)的質(zhì)量預(yù)測(cè)是更好的選擇[4]。自動(dòng)評(píng)價(jià)的研究遇到瓶頸,其主要困難從根本上看是評(píng)價(jià)模型的問(wèn)題,如果自動(dòng)評(píng)價(jià)采取模擬人工評(píng)價(jià)的思想和方法,模型的實(shí)現(xiàn)將十分復(fù)雜。因此,多數(shù)評(píng)價(jià)采取了與人工答案比較相似度的模型。利用相似度模型評(píng)價(jià)時(shí),難點(diǎn)問(wèn)題變成了相似度與語(yǔ)言質(zhì)量的關(guān)系。一般性假設(shè)是,與人工答案越相似的質(zhì)量越高,但這對(duì)于開放型評(píng)價(jià)任務(wù)并不總是成立。人工答案不是唯一的,數(shù)目也有限,質(zhì)量評(píng)價(jià)時(shí)真正需要比較的應(yīng)該是語(yǔ)義層面的相似度,語(yǔ)言形式的相似并不等于語(yǔ)義的相似,所以基于形式比較的自動(dòng)評(píng)測(cè)都無(wú)法深入到參考答案的語(yǔ)義和語(yǔ)用層面。傳統(tǒng)的語(yǔ)言學(xué)特征是研究語(yǔ)言形式相似的主要手段。另一種觀點(diǎn)認(rèn)為,文本質(zhì)量是非構(gòu)成式的,不是各個(gè)語(yǔ)言特征的疊加,而是文本的附屬屬性,是只能在特定上下文中對(duì)文本特征進(jìn)行整體評(píng)估后才能獲得的一種屬性[68]。自動(dòng)評(píng)價(jià)模型有待于提升。
第2個(gè)困難是評(píng)價(jià)機(jī)器生成語(yǔ)言的質(zhì)量是一個(gè)動(dòng)態(tài)的、源源不斷的需求,并且與任務(wù)相關(guān)。加上多文檔、多語(yǔ)種、多模態(tài)評(píng)價(jià)任務(wù)的出現(xiàn),以及復(fù)雜評(píng)價(jià)因素如文本風(fēng)格、個(gè)性化、情感傾向等的加入,無(wú)論是對(duì)自動(dòng)評(píng)價(jià)還是人工評(píng)價(jià)而言,都面臨巨大的挑戰(zhàn)。各種評(píng)價(jià)算法一直是被動(dòng)地去適應(yīng)這些需求,領(lǐng)域適用性和穩(wěn)定性不好,都未能從根本上解決語(yǔ)言質(zhì)量評(píng)價(jià)的核心問(wèn)題。
最近的自動(dòng)評(píng)價(jià)研究體現(xiàn)出解決這些難題的一些思路。在相似度研究方面,除了利用傳統(tǒng)的語(yǔ)言特征,也開始嘗試新的語(yǔ)義表示方法,例如基于詞嵌入的相似度比較,相比機(jī)械匹配而言,詞嵌入能更多地捕捉語(yǔ)義,實(shí)現(xiàn)連續(xù)空間中的內(nèi)容比較[65]。也有將文檔之間的距離視為旅行代價(jià),基于詞匯移動(dòng)距離WMD(Word Mover’s Distance)[69]求相似度的評(píng)價(jià)方法[22]。針對(duì)不同領(lǐng)域的評(píng)價(jià),遷移學(xué)習(xí)的思想也受到關(guān)注,例如谷歌最近推出的評(píng)價(jià)機(jī)器翻譯的BLEURT(github.com/google-research/bleurt)算法,可提高BLEU在不同領(lǐng)域的適應(yīng)性和穩(wěn)定性。
本文認(rèn)為,自動(dòng)評(píng)價(jià)研究的大致趨勢(shì)可分為3個(gè)具體的方向:(1)新的評(píng)價(jià)模型的研究,最新的工作是利用深度學(xué)習(xí)的框架實(shí)現(xiàn)自動(dòng)評(píng)價(jià)[70]。(2)不同評(píng)價(jià)方式的整合研究[18,24,46],由于不同的算法從不同角度捕捉了語(yǔ)言質(zhì)量的不同方面,綜合的模型可更全面地反映生成語(yǔ)言的質(zhì)量狀況。(3)定義更聚焦的評(píng)價(jià)算法以捕捉生成文本的特定方面,而不是進(jìn)行籠統(tǒng)的質(zhì)量評(píng)價(jià),這樣可以幫助我們追蹤所關(guān)心的生成文本的某些重要的質(zhì)量因素,比如流利度、多樣性和重復(fù)率等。
本質(zhì)上,機(jī)器生成語(yǔ)言的質(zhì)量評(píng)價(jià)屬于自然語(yǔ)言理解任務(wù),全面準(zhǔn)確地評(píng)價(jià)語(yǔ)言質(zhì)量涉及的因素非常復(fù)雜,生成語(yǔ)言的質(zhì)量評(píng)價(jià)比語(yǔ)言生成任務(wù)本身更有挑戰(zhàn)性。