內(nèi)容摘要:BLEU作為當(dāng)前相對具備較高應(yīng)用價值的機(jī)器算法之一,在機(jī)器翻譯尤其是語句生成領(lǐng)域存在著一定的協(xié)同發(fā)展作用。現(xiàn)就BLEU衡量標(biāo)準(zhǔn)在NLP領(lǐng)域的實際地位及發(fā)展歷程,淺析基于BLEU的格律詩生成的自動評測方法研究。
關(guān)鍵詞:BLEU NLP 機(jī)器翻譯 語句生成 自動評測方法
BLEU作為NLP領(lǐng)域中十分經(jīng)典的衡量標(biāo)準(zhǔn),目前在多數(shù)機(jī)器語句生成技術(shù)中均存在著相應(yīng)應(yīng)用。早在2002年該衡量標(biāo)準(zhǔn)便得到了國外研究人員的提出,并與同年由Kishore Papineni et al.在相關(guān)學(xué)術(shù)會議中提出。這一衡量標(biāo)準(zhǔn)在實際發(fā)展過程中通過機(jī)器計算來完成對兩個句子的共現(xiàn)詞頻率計算來實現(xiàn)對兩句語句一致程度的最終測評。雖然就該自動評估方式而言容易受常用詞以及較短翻譯句式的影響,但不可否認(rèn)其在諸如格律詩等文學(xué)類語句自動生成領(lǐng)域存在著較大的應(yīng)用價值?,F(xiàn)就筆者觀點,對基于BLEU的格律是自動生成評測方法進(jìn)行相應(yīng)研究。
一.BLEU概述
在機(jī)器翻譯領(lǐng)域BLEU技術(shù)存在著較為廣泛的應(yīng)用范圍。由于當(dāng)前機(jī)器翻譯領(lǐng)域之中在語句生成方面的需求面日益寬廣,因此在語句生成的邏輯研究以及機(jī)器算法開發(fā)方面的投入力度也隨之增加。為保證語句生成的實際質(zhì)量滿足相應(yīng)需求方的具體需求,需要在語句生成過程中做到生成思路符合人工智能的實際思路,并在具體算法設(shè)計上對語句之間的邏輯性和語言性做到良好的認(rèn)知。
BLEU作為機(jī)器翻譯領(lǐng)域中常用輔助工具的一種,其本質(zhì)是指雙語互譯質(zhì)量評估輔助工具,作用于評估機(jī)器翻譯的具體質(zhì)量。BLEU的設(shè)計思想與評判機(jī)器翻譯好壞的思想是一致的:機(jī)器翻譯結(jié)果越接近專業(yè)人工翻譯的結(jié)果,則越好。眾所周知,對于機(jī)器翻譯實際質(zhì)量的評測工作往往是由人工來完成,同時在面對多數(shù)機(jī)器翻譯的實際作品時也通常存在著翻譯結(jié)果與實際表達(dá)含義存在著出入的情況發(fā)生。為應(yīng)對這一現(xiàn)象便進(jìn)行了BLEU技術(shù)的開發(fā)工作。這一舉措不僅實現(xiàn)了對于機(jī)器翻譯語句質(zhì)量檢測的信息化渠道搭建,同時極大的節(jié)約了人工檢測的成本與時間。BLEU是做不到百分百的準(zhǔn)確的,它只能做到個大概判斷,它的目標(biāo)也只是給出一個快且不差自動評估解決方案,但這一結(jié)果已然體現(xiàn)了機(jī)器檢測結(jié)果體系在機(jī)器翻譯領(lǐng)域的應(yīng)用價值。當(dāng)前對于BLEU技術(shù)的開發(fā)工作仍在繼續(xù),實現(xiàn)BLEU算法的機(jī)器翻譯檢測工具同樣具備了較高的應(yīng)用程度,并在相關(guān)行業(yè)領(lǐng)域存在了一定程度的普及。
二.格律詩自動評測方法研究中BLEU技術(shù)的應(yīng)用價值分析
當(dāng)前現(xiàn)存的BLEU參與的漢語言文學(xué)作品自動生成系統(tǒng)中較為成功的一款便是由微軟亞洲研究所自主開發(fā)研究的對聯(lián)自動生成系統(tǒng)。由于對聯(lián)在實際格式上與格律詩存在著較大的相似之處,尤其是在對仗、押韻以及各式、寓意方面的需求存在著較大的共通之處,因此在格律詩自動生成系統(tǒng)中同樣可以應(yīng)用這一體系的運(yùn)行特點來在思路方面帶來突破。自動對聯(lián)系統(tǒng)在實際統(tǒng)計翻譯理論的結(jié)合以及統(tǒng)計翻譯理論應(yīng)用的思路方面在于通過現(xiàn)有數(shù)字建模技術(shù)來對對聯(lián)信息中的源語句、格式類型進(jìn)行建模,通過較為復(fù)雜的運(yùn)算進(jìn)行創(chuàng)作格式以及創(chuàng)作思路的規(guī)律模擬;同時通過數(shù)字建模系統(tǒng)能夠有效的對作品之中大多數(shù)案例中上下文之間的語義關(guān)系進(jìn)行模擬,找出目標(biāo)語句之間的對應(yīng)關(guān)系。這一機(jī)制體現(xiàn)出的特點與BLEU應(yīng)用價值大致吻合,且在實際應(yīng)用過程中通過BLEU評測標(biāo)準(zhǔn)能夠基本判斷對聯(lián)生成質(zhì)量是否符合用戶基本需求。同樣的,對聯(lián)自動生成系統(tǒng)與格律詩自動生成系統(tǒng)在搭建思路方面存在著較高的共通之處,為確保用戶在使用格律詩自動生成系統(tǒng)時能夠?qū)崿F(xiàn)自身需求得到大致滿足,進(jìn)行BLEU標(biāo)準(zhǔn)的搭建具有著較高的應(yīng)用價值。由于格律詩自動生成系統(tǒng)在自身系統(tǒng)自動評測方法上對效率及準(zhǔn)確精度存在著較大需求,同時在詩詞自動生成過程中有效避免了常用詞對BLEU的實際干擾,因此該標(biāo)準(zhǔn)在格律詩的自動生成系統(tǒng)中存在著較為高度的發(fā)展空間,二者協(xié)同發(fā)展的實際前景具有科研價值。
三.基于BLEU的格律詩生成自動評測方法研究
作為新興的機(jī)器算法檢測的衡量標(biāo)準(zhǔn)之一,BLEU標(biāo)準(zhǔn)在實際應(yīng)用過程中存在著較為明顯的優(yōu)缺點。其優(yōu)勢在于自身檢測結(jié)果的應(yīng)用價值顯著且具備了較為高度的參考價值,同時相對于人工檢測方式而言這一檢測機(jī)制響應(yīng)時間更短、檢測效果更明顯,且在多數(shù)的自動評測方法之中這一單元的應(yīng)用成本要明顯低于人工成本。然而同時BLEU的缺陷相對而言同樣較為顯著。首先,BLEU作為邏輯層面的檢測響應(yīng)機(jī)制在語法語義方面的應(yīng)用缺失較為嚴(yán)重,雖然能夠基本實現(xiàn)對于語言邏輯層面的布控,卻不考慮語言表達(dá)(語法)上的準(zhǔn)確性;其次,由于當(dāng)前BLEU應(yīng)用詞庫依舊處于填充過程之中,因此在關(guān)鍵詞檢測中雖然具備較高的精確度,但在常用詞檢測之中同樣會受到詞庫匱乏這一弊端的影響,測評精度會受常用詞的干擾;第三,短譯句的測評精度有時會較高;同時沒有考慮同義詞或相似表達(dá)的情況,可能會導(dǎo)致合理翻譯被否定。這一結(jié)果顯然不是研究人員所期望的實際結(jié)果,因此目前對于BLEU標(biāo)準(zhǔn)的界定較為模糊,是否落實應(yīng)用這一標(biāo)準(zhǔn)也是多數(shù)檢測評測系統(tǒng)搭建的重點探討問題之一。
目前對于格律詩自動生成系統(tǒng)的應(yīng)用建設(shè)已然具備了較為完善的相關(guān)經(jīng)驗,且格律詩的創(chuàng)作應(yīng)用具備了較大的特殊性。于漢語語言文學(xué)與計算機(jī)算法的結(jié)合發(fā)展相對傳統(tǒng)計算機(jī)算法的發(fā)展建設(shè)進(jìn)程而言其建設(shè)工作的內(nèi)涵相對較為復(fù)雜,因此實際應(yīng)用過程中對于機(jī)器算法的實際質(zhì)量存在著較高要求。這一系統(tǒng)的運(yùn)作機(jī)制在于通過對漢語言文學(xué)以及詩詞類藝術(shù)鑒賞進(jìn)行數(shù)字建模,來實現(xiàn)通過計算機(jī)技術(shù)系統(tǒng)化的生成格律詩題材的文學(xué)作品,以適應(yīng)現(xiàn)階段社會環(huán)境中的信息化藝術(shù)發(fā)展形勢。同時格律詩由于自身特殊的文學(xué)地位在創(chuàng)作過程中同樣具備了較高的難度。眾所周知,格律詩在自身題材中包含了律詩以及絕句兩大組成部分,我國漢語語言文學(xué)史上具有著較高的地位。而格律詩的自動生成系統(tǒng)開發(fā)難度之所以較高是因為這一題材的詩詞作品在創(chuàng)作過程中對于已經(jīng)以及韻腳存在著高度的要求,既需要在題材格式上滿足詩詞的多元化搭配,同時在詩詞自身的意境上同樣需要具有較高的文學(xué)素養(yǎng)。
在格律詩自動生成系統(tǒng)中進(jìn)行基于BLEU的自動評測發(fā)展時間相對較短,且依舊存在著經(jīng)驗缺失的問題,因此就筆者觀點而言對其進(jìn)行自動評測方法研究具有著一定的積極價值。目前常見的基于BLEU是自動評測方法主要存在于關(guān)鍵詞檢測以及核心語句建模兩大方面。關(guān)鍵詞檢測是指在格律詩的自動生成過程中首句生成階段。目前我國常見的格律詩自動生成系統(tǒng)在進(jìn)行首句生成時主要依靠于《詩學(xué)含英》中的分類體系進(jìn)行參考。眾所周知,《詩學(xué)含英》一書中在語義類別的具體分類上面向不同的詩詞類型共存在著40大類、1016個關(guān)鍵詞、41248個詞匯,因此在進(jìn)行首句生成時該自動生成系統(tǒng)僅僅需要用戶進(jìn)行詩詞題材的選擇以及三個關(guān)鍵詞的確定即可完成對于格律詩首句的生成工作。而核心語句建模則相對較為復(fù)雜,是指通過對同一類型關(guān)鍵詞、核心詞匯的評測來完成對于格律詩自身風(fēng)格的數(shù)字建模工作。在通過相似度檢測以及首句、二三四句的實際生成關(guān)系確認(rèn)后通過核心語句建模能夠有效確保語句在生成后韻腳、平仄均符合律詩或絕句對于整體作品的相關(guān)需求。
BLEU標(biāo)準(zhǔn)與格律詩的自動生成體系建設(shè)具有著較高的協(xié)同發(fā)展價值,同時就BLEU標(biāo)準(zhǔn)的實際發(fā)展來看這一理論在自動生成等技術(shù)領(lǐng)域的實際應(yīng)用已然具備了一定的成熟度。為確保我國相關(guān)格律詩自動生成系統(tǒng)在實際應(yīng)用過程中能夠穩(wěn)定發(fā)揮自身機(jī)制特點,在作品生成時滿足用戶具體需求,對BLEU進(jìn)行應(yīng)用是當(dāng)前我國格律詩自動生成系統(tǒng)開發(fā)研究的重點工作內(nèi)容之一。相關(guān)科研人員還應(yīng)加強(qiáng)對于該技術(shù)類型的具體認(rèn)知,實現(xiàn)基于BLEU理論的格律詩自動生成的評測方法及實際作用符合該系統(tǒng)的開發(fā)需求。
參考文獻(xiàn)
[1]杜金華,張萌,宗成慶,孫樂.中國機(jī)器翻譯研究的機(jī)遇與挑戰(zhàn)——第八屆全國機(jī)器翻譯研討會總結(jié)與展望[J].中文信息學(xué)報,2016,(07):15-16
[2]蔣銳瀅,崔磊,何晶,周明,潘志庚.基于主題模型和統(tǒng)計機(jī)器翻譯方法的中文格律詩自動生成[J].計算機(jī)學(xué)報,2017,(16):30-34
[3]何晶,周明,蔣龍.基于統(tǒng)計的漢語格律詩生成研究[J].中文信息學(xué)報,2015,(22):35-40
(作者介紹:朱騏,鹽城工學(xué)院信息學(xué)院副教授,從事計算機(jī)應(yīng)用與教學(xué)、中國古典文學(xué)研究)