亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        預(yù)訓(xùn)練文本摘要研究綜述

        2022-04-16 08:47:58張紫蕓王文發(fā)馬樂榮丁蒼峰
        關(guān)鍵詞:文檔單詞文本

        張紫蕓,王文發(fā),馬樂榮*,丁蒼峰

        (1.延安大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院;2.延安市紅色文化大數(shù)據(jù)智能信息處理重點(diǎn)實(shí)驗(yàn)室,陜西延安 716000)

        文本摘要是對(duì)文本或者文本集合在保留其原文主旨大意的基礎(chǔ)上進(jìn)行抽取、壓縮和總結(jié),形成文摘。文摘是全面準(zhǔn)確地反映某一文獻(xiàn)中心內(nèi)容的簡(jiǎn)單連貫的短文,常用方法是摘要將文本作為句子的線性序列,將句子視為詞的線性序列。文本摘要按照輸入類型分為單文檔摘要和多文檔摘要,單文檔摘要就是對(duì)單個(gè)文檔進(jìn)行總結(jié),多文檔摘要就是對(duì)一組文檔進(jìn)行摘要;按照有無(wú)監(jiān)督數(shù)據(jù)分為有監(jiān)督摘要和無(wú)監(jiān)督摘要;按照摘要的生成方式分為抽取式、生成式以及將兩者結(jié)合的抽取生成式,抽取式就是抽取原單文檔或者多文檔中的重要句子和詞匯進(jìn)行摘要生成,生成式就是通過(guò)釋義和重組句子來(lái)構(gòu)成摘要,允許生成新的詞匯或者句子。

        隨著自然語(yǔ)言處理任務(wù)的發(fā)展,現(xiàn)在文本摘要的研究工作主要圍繞神經(jīng)體系結(jié)構(gòu)的探索和訓(xùn)練約束的設(shè)計(jì),此外,還有一些工作試圖整合文檔特征以增強(qiáng)模型性能[1]。隨著預(yù)訓(xùn)練模型在自然語(yǔ)言處理相關(guān)任務(wù)上取得巨大的進(jìn)步,本文將聚焦摘要生成任務(wù),梳理預(yù)訓(xùn)練模型在文本摘要方面的研究進(jìn)展。

        1 預(yù)訓(xùn)練語(yǔ)言模型的文本摘要方法

        預(yù)訓(xùn)練語(yǔ)言模型是在給定的語(yǔ)料庫(kù)上,通過(guò)自監(jiān)督的方式從語(yǔ)料庫(kù)上訓(xùn)練出符合給定性能指標(biāo)的語(yǔ)言模型,為下游任務(wù)提供語(yǔ)言表示服務(wù)。近年來(lái),圍繞預(yù)訓(xùn)練語(yǔ)言模型,文本摘要涌現(xiàn)出一系列重要的方法,本部分從經(jīng)典的預(yù)訓(xùn)練模型出發(fā),梳理了幾類典型的摘要生成方法。

        1.1 預(yù)訓(xùn)練語(yǔ)言模型

        預(yù)訓(xùn)練模型包括ELMo[2]、GPT[3]和BERT[4]等。ELMo學(xué)習(xí)2種單向LM:前向LM從左向右編碼文本,后向LM從右向左編碼文本;GPT使用從左到右的Transformer逐字預(yù)測(cè)文本序列;BERT基于雙向Transformer編碼器融合左右上下文來(lái)預(yù)測(cè)屏蔽單詞。在文本摘要任務(wù)中的預(yù)訓(xùn)練語(yǔ)言模型大多都采用BERT,下面對(duì)幾個(gè)模型進(jìn)行一個(gè)簡(jiǎn)單介紹。

        a)ELMo:ELMo解決了現(xiàn)有的詞向量表示存在的兩大挑戰(zhàn):1)單詞使用的復(fù)雜性,如句法和語(yǔ)法;2)單詞在不同上下文中的一詞多義性。ELMo是雙向基于特征的語(yǔ)言模型,使用獨(dú)立訓(xùn)練的從左到右(前向)和從右到左(后向)的LSTM串聯(lián)為下游任務(wù)生成特征,是一種新的深度語(yǔ)境化單詞表示。

        前向LSTM模型:給定N個(gè)token的序列(t1,t2,…,t N),前向語(yǔ)言模型通過(guò)對(duì)給定(t1,…,t k-1)預(yù)測(cè)下一個(gè)詞語(yǔ)t k的概率,公式如下:

        后向LSTM模型:后向LM類似于前向LM,除非它在反向序列上運(yùn)行,根據(jù)第k個(gè)詞后面的詞去預(yù)測(cè)第k個(gè)詞的概率,公式如下:

        biLM結(jié)合了前向和后向LM,最大化前向和后向的聯(lián)合似然概率為

        其中,Θx為輸入的初始詞向量參數(shù),Θs為輸出的softmax層參數(shù),和是雙向語(yǔ)言模型的參數(shù)。

        b)GPT:針對(duì)以前的預(yù)訓(xùn)練語(yǔ)言模型與下游任務(wù)的語(yǔ)言模型不一致而造成的遷移困難,以及用于學(xué)習(xí)的標(biāo)記數(shù)據(jù)較少這2個(gè)問(wèn)題,RADFORD等[3]提出了一種半監(jiān)督的模型GPT,模型分為兩部分:采用無(wú)監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練充分利用大量未標(biāo)注的文本數(shù)據(jù),然后利用監(jiān)督學(xué)習(xí)的微調(diào)來(lái)適配具體的NLP任務(wù)。

        c)BERT:DEVLIN等[4]認(rèn)為當(dāng)前的技術(shù)限制了預(yù)訓(xùn)練表示的能力,尤其是對(duì)微調(diào)方法而言,因此提出BERT,其采用Transformer的雙向編碼器表示,通過(guò)在所有層中聯(lián)合調(diào)節(jié)左右上下文來(lái)預(yù)處理來(lái)自未標(biāo)記文本的深層雙向表示。因此,只需一個(gè)額外的輸出層,就可以對(duì)預(yù)先訓(xùn)練好的BERT模型進(jìn)行微調(diào),為各種任務(wù)創(chuàng)建最先進(jìn)的模型,模型框架與GPT一樣都是采用預(yù)訓(xùn)練和微調(diào),也都是基于微調(diào)的語(yǔ)言模型。

        此外,不同于傳統(tǒng)的從左到右或者從右到左的語(yǔ)言模型,使用2個(gè)無(wú)監(jiān)督的任務(wù)對(duì)BERT進(jìn)行預(yù)訓(xùn)練:Masked LM和Next Sentence Prediction。

        1.2 基于預(yù)訓(xùn)練的生成式摘要

        自然語(yǔ)言處理中的大多數(shù)模型預(yù)處理方法都利用了文本的自然排序。例如,Word2vec[5]使用固定大小窗口內(nèi)的周圍單詞,用對(duì)數(shù)雙線性模型預(yù)測(cè)中間的單詞生成的單詞嵌入表示可用于其他下游任務(wù)。還有其他使用類似技術(shù)的單詞嵌入預(yù)訓(xùn)練方法[6-7]。PETERS等[2]和RADFORD等[3]發(fā)現(xiàn),即使句子編碼器(不僅僅是單詞嵌入)也可以用語(yǔ)言模型目標(biāo)進(jìn)行預(yù)訓(xùn)練(即預(yù)測(cè)下一個(gè)或前一個(gè)單詞)。語(yǔ)言模型的目標(biāo)是單向的,而許多任務(wù)可以雙向利用上下文。因此,DEVLIN等[4]提出了自然雙向掩碼語(yǔ)言模型目標(biāo)(即在一個(gè)句子中用特殊標(biāo)記掩蔽幾個(gè)單詞,然后預(yù)測(cè)它們)。上述方法都旨在預(yù)訓(xùn)練單詞嵌入或句子編碼器,因此ZHANG等[8]提出使用HIBERT進(jìn)行文檔編碼和一種未標(biāo)記數(shù)據(jù)對(duì)其進(jìn)行預(yù)訓(xùn)練的方法,將預(yù)先訓(xùn)練的HIBERT應(yīng)用到摘要模型中。

        LIU等[9]提出了一個(gè)對(duì)抗框架來(lái)聯(lián)合訓(xùn)練生成模型G和區(qū)分模型D。生成器G將原始文本作為輸入并生成摘要,使用強(qiáng)化學(xué)習(xí)(即策略梯度)來(lái)優(yōu)化G,以獲得高質(zhì)量的總結(jié)。BAE等[10]改進(jìn)了抽象摘要的句子重寫方法,提出了一種利用BERT的新提取器結(jié)構(gòu)和一種全局優(yōu)化摘要級(jí)ROUGE度量的新訓(xùn)練過(guò)程。SHARMA等[11]提出了一個(gè)實(shí)體驅(qū)動(dòng)的摘要框架SENECA,來(lái)生成信息豐富且連貫的抽象摘要。實(shí)體感知內(nèi)容選擇模塊首先從輸入中識(shí)別顯著的句子,然后摘要生成模塊進(jìn)行跨句子信息壓縮和抽象以生成最終的摘要。ZHANG等[12]提出了一種新的基于預(yù)訓(xùn)練的編解碼框架,該框架可以根據(jù)輸入序列分兩階段生成輸出序列。編碼器,使用BERT將輸入序列編碼成上下文表示;解碼器,在第一階段,使用基于Transformer的解碼器來(lái)生成草稿輸出序列,在第二階段,屏蔽草稿序列的每個(gè)單詞并將其饋送給BERT,然后通過(guò)組合輸入序列和BERT生成的草稿表示,使用基于Transformer的解碼器來(lái)預(yù)測(cè)每個(gè)屏蔽位置的精煉單詞,此外在學(xué)習(xí)過(guò)程中還引入了強(qiáng)化學(xué)習(xí)目標(biāo)。SONG等[13]期望通過(guò)改進(jìn)通用單文檔摘要的框架來(lái)實(shí)現(xiàn)生成不同文本重用比例的摘要,提出了一個(gè)基于Transformer,僅包含解碼器的模型來(lái)控制生成摘要的復(fù)制率,在訓(xùn)練和解碼階段采取了多種策略生成從完全抽取到高生成度的不同摘要。

        目前尚未有針對(duì)生成式文本摘要定制預(yù)訓(xùn)練目標(biāo),此外,生成式文本摘要任務(wù)也缺乏跨領(lǐng)域的系統(tǒng)評(píng)價(jià)。ZHANG等[14]提出了PEGASUS,一個(gè)序列到序列的模型,以間隙句生成為預(yù)處理目標(biāo),為生成式文本摘要定制。研究了幾種間隔句選擇方法,確定原則句選擇為最優(yōu)策略,展示了預(yù)訓(xùn)練語(yǔ)料庫(kù)、差距句比率、詞匯大小的效果,并擴(kuò)大了最佳配置,以在所有12個(gè)不同的下游數(shù)據(jù)集上獲得最先進(jìn)的結(jié)果。

        1.3 基于預(yù)訓(xùn)練的抽取式摘要

        受BERT成功的啟發(fā),SONG等[15]提出了基于編碼器-解碼器的語(yǔ)言生成的掩碼序列到序列預(yù)訓(xùn)練模型MASS。采用編碼器-解碼器框架,在給定句子剩余部分的情況下,重構(gòu)一個(gè)句子片段:它的編碼器取一個(gè)帶有隨機(jī)屏蔽片段(幾個(gè)連續(xù)標(biāo)記)的句子作為輸入,它的解碼器試圖預(yù)測(cè)這個(gè)屏蔽片段。從而,MASS可以聯(lián)合訓(xùn)練編碼器和解碼器來(lái)開發(fā)表示提取和語(yǔ)言建模的能力,通過(guò)進(jìn)一步微調(diào)各種低資源語(yǔ)言生成任務(wù)。LIU[16]提出了BERT的簡(jiǎn)單變體BERTSUM,選擇性抽取文本中的句子作為最后的摘要,工作的重點(diǎn)在于獲得每個(gè)句子向量,然后對(duì)句子向量進(jìn)行一個(gè)二分類,判斷是否成為摘要。由于大規(guī)模、高質(zhì)量的標(biāo)注數(shù)據(jù)集不易獲取,ZHENG等[17]開發(fā)了一個(gè)基于圖的排序算法的無(wú)監(jiān)督摘要模型,并改進(jìn)了如何計(jì)算節(jié)點(diǎn)(也就是句子)的中心性。WANG等[1]分析了摘要任務(wù)中當(dāng)前域定義的局限性,并將其擴(kuò)展到文章出版物中,將域的常規(guī)定義從類別擴(kuò)展到文本摘要任務(wù)的數(shù)據(jù)源,然后重新調(diào)整多域匯總數(shù)據(jù)集的用途,并驗(yàn)證不同域之間的差距如何影響神經(jīng)總結(jié)模型的性能。決定性點(diǎn)過(guò)程是抽取摘要的最佳技術(shù)之一,CHO等[18]采用決定性點(diǎn)過(guò)程提取多文檔摘要。DPP+BERT模型利用深度上下文化表示和優(yōu)化的力量,在多文檔摘要基準(zhǔn)上實(shí)現(xiàn)出色的性能。

        1.4 基于預(yù)訓(xùn)練的生成抽取式摘要

        LIU等[19]提出了如何將BERT有效地應(yīng)用于文本摘要,強(qiáng)調(diào)了文檔編碼對(duì)于摘要任務(wù)的重要性,為抽取和生成模型提出了一個(gè)通用框架。抽取式模型是通過(guò)堆疊幾個(gè)內(nèi)容轉(zhuǎn)換器層建立在這個(gè)編碼器之上。針對(duì)生成式模型提出了一種新的微調(diào)調(diào)度,它對(duì)編碼器和解碼器采用不同的優(yōu)化器,作為緩解兩者之間不匹配的手段(前者是預(yù)訓(xùn)練的,而后者不是)。

        1.5 其他

        語(yǔ)言模型(Language Model,LM)的預(yù)訓(xùn)練已在各種語(yǔ)言理解任務(wù)上產(chǎn)生了令人印象深刻的性能和樣本效率。但是,仍不清楚如何最好地將經(jīng)過(guò)預(yù)訓(xùn)練的LM用于生成任務(wù),計(jì)算科學(xué)[20]等機(jī)構(gòu)使用經(jīng)過(guò)預(yù)訓(xùn)練的解碼器網(wǎng)絡(luò),網(wǎng)絡(luò)中相同的Transformer LM既對(duì)源進(jìn)行編碼,又生成摘要,這確保了網(wǎng)絡(luò)中的所有參數(shù),包括那些控制對(duì)源狀態(tài)關(guān)注的參數(shù)都已在微調(diào)步驟之前進(jìn)行了預(yù)訓(xùn)練。DONG等[21]提出一個(gè)能夠同時(shí)處理自然語(yǔ)言理解和生成任務(wù)UNILM模型。UNILM模型的預(yù)訓(xùn)練是基于3個(gè)目標(biāo):?jiǎn)蜗騆M(包括從左到右和從右到左)、雙向LM和序列LM。模型采用一個(gè)共享參數(shù)的Transformer網(wǎng)絡(luò)的同時(shí)還使用了特定的self-attention masks用以控制預(yù)測(cè)時(shí)候所用到的上下文信息。在下游任務(wù)微調(diào)時(shí)候,可以將UNILM模型視為單向的編碼、雙向的編碼或者序列模型,以適應(yīng)不同的下游任務(wù)(自然語(yǔ)言理解和生成任務(wù))。

        LEWIS等[22]提出了BART,一種用于預(yù)訓(xùn)練序列到序列模型的去噪自編碼器,通過(guò)使用任意噪聲函數(shù)來(lái)對(duì)文本進(jìn)行加噪,并學(xué)習(xí)模型以重建原始文本來(lái)訓(xùn)練BART。BELTAGY等[23]提出了SciBERT,一種基于BERT的預(yù)訓(xùn)練語(yǔ)言模型,以解決缺乏高質(zhì)量、大規(guī)模標(biāo)簽的科學(xué)數(shù)據(jù)的問(wèn)題。此外廣泛使用的ROUGE的摘要自動(dòng)評(píng)估依賴于參考和系統(tǒng)摘要之間的重疊。SUN等[24]從評(píng)價(jià)方法角度出發(fā),在文章語(yǔ)義相似度的計(jì)算中徹底拋棄了ROUGE和ngram共現(xiàn),系統(tǒng)地研究了嵌入余弦相似度,以衡量3個(gè)數(shù)據(jù)集上摘要的質(zhì)量。

        基于預(yù)訓(xùn)練的摘要生成任務(wù)模型在高質(zhì)量大規(guī)模的數(shù)據(jù)集上進(jìn)行訓(xùn)練時(shí),性能優(yōu)越,生成的摘要和人工生成的相似度很高,但當(dāng)數(shù)據(jù)質(zhì)量和效果都一般的情況下,模型效果就不是很優(yōu)異。

        2 數(shù)據(jù)集

        數(shù)據(jù)集的發(fā)展對(duì)模型的好壞有直接影響,起初摘要數(shù)據(jù)集大都來(lái)自新聞?lì)I(lǐng)域類數(shù)據(jù),很大程度上限制了摘要發(fā)展,但現(xiàn)在摘要數(shù)據(jù)集正在多元化發(fā)展。下面對(duì)幾種常用的英文數(shù)據(jù)集和中文摘要數(shù)據(jù)集進(jìn)行梳理。

        2.1 英文數(shù)據(jù)集

        2.1.1 Gigaword

        英文Gigaword[25]最初于2003年由語(yǔ)言數(shù)據(jù)聯(lián)盟(LDC)制作,來(lái)自4個(gè)不同的國(guó)際英語(yǔ)新聞專線,包含了來(lái)自國(guó)內(nèi)和國(guó)際新聞服務(wù)的大約950萬(wàn)篇各種新聞文章,其中包含3.8 M訓(xùn)練樣本,190 K驗(yàn)證樣本和1 951個(gè)測(cè)試樣本。之后約翰霍普金斯大學(xué)人類語(yǔ)言技術(shù)卓越中心開發(fā)Annotated English Gigaword(2012年),為 英 語(yǔ)Gigaword第 五 版(LDC2011T07)添加了自動(dòng)生成的句法和語(yǔ)篇結(jié)構(gòu)注釋。RUSH等[26]將神經(jīng)語(yǔ)言模型和基于注意機(jī)制的上下文編碼結(jié)合起來(lái)做摘要,使用帶注釋的Gigaword和DUC數(shù)據(jù)集,由標(biāo)準(zhǔn)的Gigaword組成,由于包含許多虛假的標(biāo)題文章對(duì),基于啟發(fā)式過(guò)濾器后,訓(xùn)練集大約由400萬(wàn)個(gè)標(biāo)題-文章對(duì)組成。

        2.1.2 CNN/Daily Mail

        CNN/Daily Mail數(shù)據(jù)集是HERMANN等[27]從美國(guó)有線新聞網(wǎng)(CNN)和每日郵報(bào)網(wǎng)(Daily Mail)中收集的大約100萬(wàn)條新聞數(shù)據(jù)作為機(jī)器閱讀理解語(yǔ)料庫(kù)。語(yǔ)料庫(kù)的統(tǒng)計(jì)信息如表1所示。

        表1 CNN&Dailymail語(yǔ)料庫(kù)的統(tǒng)計(jì)信息

        SEE等[28]對(duì)原始數(shù)據(jù)或數(shù)據(jù)的非匿名版本進(jìn)行去標(biāo)簽等預(yù)處理后得到非匿名版數(shù)據(jù),包含287 226個(gè)訓(xùn)練對(duì)、13 368個(gè)驗(yàn)證對(duì)和114 490個(gè)測(cè)試對(duì)。數(shù)據(jù)集更適用于抽取式摘要。

        2.2 中文數(shù)據(jù)集

        2.2.1 LCSTS

        LCSTS數(shù)據(jù)集[29]是由哈爾濱工業(yè)大學(xué)的智能計(jì)算研究中心發(fā)布的一份基于中文微博網(wǎng)站新浪微博構(gòu)建的大規(guī)模中文短文本摘要數(shù)據(jù)集。該數(shù)據(jù)集由200多萬(wàn)篇真實(shí)的中文短文組成,每篇短文的作者給出簡(jiǎn)短的摘要,手動(dòng)標(biāo)記了10 666個(gè)簡(jiǎn)短摘要與其對(duì)應(yīng)的簡(jiǎn)短文本的相關(guān)性。數(shù)據(jù)集由三部分組成,第一部分包含大規(guī)模(短文,總結(jié))對(duì);第二部分包含10 666個(gè)人標(biāo)記(短文本,摘要)對(duì);第三部分包含1 106對(duì),由3個(gè)人同時(shí)打分。對(duì)第二部分和第三部分的短文本和相應(yīng)摘要之間的相關(guān)性進(jìn)行打分,分?jǐn)?shù)范圍從1到5,“1”表示“最不相關(guān)”,而“5”表示“最相關(guān)”,使用第三部分的3、4和5評(píng)分的對(duì)作為短文本摘要生成任務(wù)的測(cè)試集。第二部分和第三部分也可以用作訓(xùn)練集和測(cè)試集,該數(shù)據(jù)集是針對(duì)單文本的生成式摘要。

        2.2.2 NLPCC

        自然語(yǔ)言處理與中文計(jì)算會(huì)議(NLPCC)是由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦的CCF中文信息技術(shù)專業(yè)委員會(huì)從2012年開始組織的年度學(xué)術(shù)會(huì)議。每年一屆至今已舉辦9次,NLPCC2015中包含一項(xiàng)面向微博的中文新聞?wù)蝿?wù),該數(shù)據(jù)集包括250篇來(lái)自新浪的新聞文本,包括原始文本和已經(jīng)分句的文本,NLPCC2017,NLPCC2018中包含一項(xiàng)單文檔摘要任務(wù),會(huì)議提供了數(shù)據(jù)集NLPCC。NLPCC2017,NLPCC2018中提供的訓(xùn)練集是相同的,該數(shù)據(jù)集由大量帶有參考摘要的中文新聞文章以及大量沒有參考摘要的新聞文章組成(對(duì)于半監(jiān)督方法),兩部分都包含5 000篇新聞文檔,提供不同的測(cè)試集來(lái)評(píng)估和比較不同的文檔摘要技術(shù)。數(shù)據(jù)集適用于單文本的生成式摘要。

        2.3 其他

        SHARMA等[30]介紹了一個(gè)新的數(shù)據(jù)集,包括130萬(wàn)份美國(guó)專利文獻(xiàn)記錄以及人類書面抽象摘要。特點(diǎn):摘要包含更豐富的話語(yǔ)結(jié)構(gòu)和更多的常用實(shí)體,更長(zhǎng)的輸入序列(CNN/Daily Mail的平均3 572.8 VS 789.9個(gè)字),關(guān)鍵內(nèi)容在輸入中均勻分布,而在流行的基于新聞的數(shù)據(jù)集中,它通常集中在前幾句中,摘要中存在更少和更短的提取片段。

        FABBRI等[31]提出了第一個(gè)新聞多文檔摘要數(shù)據(jù)集,它包含來(lái)自1 500多個(gè)不同網(wǎng)站的輸入文章以及從網(wǎng)站newser.com獲得的56 216篇文章的專業(yè)摘要。此外,作者提出了一種端到端模型,該模型在各種多文檔數(shù)據(jù)集(包括Multi-News)的自動(dòng)和人工評(píng)估下實(shí)現(xiàn)了較好的結(jié)果。

        通常大規(guī)模、高質(zhì)量的數(shù)據(jù)集可以極大的推進(jìn)一個(gè)研究方向的發(fā)展,目前很多摘要任務(wù)的模型都取得了優(yōu)異的結(jié)果,這離不開高質(zhì)量的數(shù)據(jù)集,因此采集多元化、高質(zhì)量的數(shù)據(jù)集以推動(dòng)摘要的發(fā)展是未來(lái)的發(fā)展趨勢(shì)之一。

        3 評(píng)價(jià)方法

        文本摘要的評(píng)估方法分為兩部分:自動(dòng)評(píng)價(jià)方法和人工評(píng)價(jià)方法。自動(dòng)評(píng)價(jià)方法就是比較模型生成的摘要和參考摘要之間的相似度;人工評(píng)價(jià)就是由專家對(duì)候選摘要進(jìn)行評(píng)價(jià)。

        3.1 自動(dòng)評(píng)價(jià)方法

        3.1.1 ROUGE

        ROUGE(Recall-Oriented Understudy for Gisting Evaluation)由LIN[32]于2003年提出,是目前評(píng)估文本摘要和機(jī)器翻譯的一組指標(biāo)。其基本思想是通過(guò)將由一系列算法或技術(shù)自動(dòng)生成的摘要或翻譯與一組通常由人工生成的理想摘要或翻譯進(jìn)行比對(duì),通過(guò)對(duì)兩者之間的重疊單元(n元語(yǔ)法,單詞序列和單詞對(duì))進(jìn)行計(jì)數(shù),從而得出分值,以衡量自動(dòng)生成的摘要或翻譯與參考文本之間的相似性,來(lái)評(píng)價(jià)算法有效性。下面對(duì)ROUGE-N進(jìn)行介紹:

        ROUGE-N:基于N-gram共現(xiàn)性進(jìn)行統(tǒng)計(jì);ROUGE-L:基于最長(zhǎng)共有字句的共現(xiàn)性精確度和召回率Fmeasure進(jìn)行統(tǒng)計(jì);ROUGE-S:基于不連續(xù)二元組共現(xiàn)性精確度和召回率進(jìn)行統(tǒng)計(jì);ROUGE-W基于帶權(quán)重的最長(zhǎng)公有子句共現(xiàn)性精確度和召回率進(jìn)行統(tǒng)計(jì)。常用的評(píng)價(jià)指標(biāo)為ROUGE-N。

        式中,n代表n-gram的長(zhǎng)度,n-gram就是一個(gè)語(yǔ)句中連續(xù)的n個(gè)詞組成的詞組,其中Countmatch(gramn)代表同時(shí)出現(xiàn)在參考摘要和候選摘要中的n-gram數(shù),Count(gramn)代表出現(xiàn)在參考摘要中的n-gram的個(gè)數(shù)。

        3.1.2 BLEU

        BLEU由PAPINENI[33]于2002年被提出,最開始開發(fā)被應(yīng)用于機(jī)器翻譯評(píng)估中,其計(jì)算方式與ROUGE相似,區(qū)別是BLEU基于精確率,而ROUGE基于召回率。由于機(jī)器翻譯和自動(dòng)文摘都可以被看作是從文本環(huán)境中產(chǎn)生的自然語(yǔ)言,因此作者認(rèn)為BLEU可以用來(lái)評(píng)估自動(dòng)文摘或類似的NLG任務(wù)。在文本摘要任務(wù)中就是評(píng)價(jià)候選摘要和參考摘要的相似成度,和機(jī)器翻譯度量參考翻譯和機(jī)器翻譯的形式一致。其度量公式為:

        式中,wn表示n-gram的權(quán)重。

        式中,BP表示懲罰因子,c表示譯文的句子長(zhǎng)度,r表示有效參考譯文的句子長(zhǎng)度,公式表示若候選譯文長(zhǎng)度小于參考譯文,會(huì)得到一個(gè)BP值,即短句懲罰因子,pn表示n-gram的精確度。

        式中,Countclip是截?cái)嘤?jì)數(shù),Count是n-gram在候選翻譯中出現(xiàn)的次數(shù),max_ref_Count就是n-gram在參考翻譯中出現(xiàn)次數(shù)最大的值,兩者比較取最小。其優(yōu)點(diǎn)是計(jì)算簡(jiǎn)單且迅速,它通過(guò)在測(cè)試語(yǔ)料庫(kù)上平均出單個(gè)句子的判斷錯(cuò)誤,而不是試圖預(yù)測(cè)每個(gè)句子的準(zhǔn)確的人類判斷,從而與人類的判斷高度相關(guān);缺點(diǎn)是只考慮了參考譯文與候選譯文的n-gram的重合度,對(duì)源文的本質(zhì)意思欠缺考慮,不能很好地反映語(yǔ)義問(wèn)題。

        3.2 人工評(píng)價(jià)

        自動(dòng)評(píng)價(jià)方法的關(guān)注點(diǎn)通常在候選摘要與文本的相似度,而忽略摘要的語(yǔ)義問(wèn)題。人工評(píng)價(jià)方法一般從摘要內(nèi)容的可讀性、與原文檔的相關(guān)性、信息性、簡(jiǎn)潔性方面、語(yǔ)義連貫性方面綜合考慮參考摘要,人工評(píng)價(jià)摘要相比自動(dòng)評(píng)價(jià)較為精確,但是消耗人力時(shí)間,而且人工的主觀性方面容易收到外在因素的干擾。

        4 研究展望

        互聯(lián)網(wǎng)時(shí)代,從1958年文本摘要任務(wù)提出至今,其經(jīng)歷了從緩慢到飛速發(fā)展的階段,目前文本摘要任務(wù)的模型性能表現(xiàn)優(yōu)異,但仍存在許多巨大的挑戰(zhàn)。

        評(píng)價(jià)指標(biāo):ROUGE是目前被大家最廣泛使用的評(píng)價(jià)指標(biāo),但其偏向于考察摘要的重要性、流暢性等,通常無(wú)法反映一段摘要是否包含了事實(shí)性錯(cuò)誤。因此,對(duì)ROUGE進(jìn)一步改進(jìn)或者提出一個(gè)能夠捕捉摘要的事實(shí)一致性的摘要評(píng)價(jià)指標(biāo)是未來(lái)研究者們所面臨的一個(gè)挑戰(zhàn)及發(fā)展趨勢(shì)。

        數(shù)據(jù)集:目前文本摘要任務(wù)的模型在中文中可以熟練生成類似于文章標(biāo)題的短摘要,但在生成長(zhǎng)摘要方面效果欠佳,現(xiàn)有高質(zhì)量的中文長(zhǎng)文本數(shù)據(jù)集較少,中文數(shù)據(jù)集摘要的長(zhǎng)度基本是一個(gè)文檔標(biāo)題的長(zhǎng)度,長(zhǎng)度較短,所以在互聯(lián)網(wǎng)的助力下,采集高質(zhì)量長(zhǎng)文本數(shù)據(jù)集以及文本對(duì)應(yīng)的長(zhǎng)摘要的數(shù)據(jù)集或其他高質(zhì)量語(yǔ)言數(shù)據(jù)集的產(chǎn)生對(duì)于摘要的發(fā)展也是一種推動(dòng)。

        模型適應(yīng)性:由于目前數(shù)據(jù)集的缺乏,領(lǐng)域涉及較少,且大多屬于新聞?lì)I(lǐng)域的,從而現(xiàn)有文本摘要模型大多集中在新聞?lì)I(lǐng)域,對(duì)其他領(lǐng)域適應(yīng)性較差,因此研究更加普適性的模型以適應(yīng)其他數(shù)據(jù)集是很有必要的。

        模型結(jié)構(gòu):在目前摘要的預(yù)訓(xùn)練模型中,模型是從龐大的數(shù)據(jù)集中學(xué)習(xí),算法模型以及數(shù)據(jù)集愈發(fā)變大,進(jìn)行一次實(shí)驗(yàn)所耗費(fèi)的人力、物力、財(cái)力都消耗巨大。故很有必要對(duì)預(yù)訓(xùn)練模型提出改進(jìn)。例如,改進(jìn)模型,使其具有歸納能力,從而可采用小數(shù)據(jù)集以及模型層數(shù)、數(shù)據(jù)集大小參數(shù)調(diào)整等都可以對(duì)模型性能產(chǎn)生影響。

        猜你喜歡
        文檔單詞文本
        有人一聲不吭向你扔了個(gè)文檔
        單詞連一連
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        看圖填單詞
        看完這些單詞的翻譯,整個(gè)人都不好了
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        如何快速走進(jìn)文本
        加勒比熟女精品一区二区av| 亚洲欧洲日产国产AV无码| 久久er这里都是精品23| 久久av一区二区三区黑人| 特黄 做受又硬又粗又大视频| 女人被爽到呻吟gif动态图视看| 日韩欧美国产丝袜视频| 蜜桃av福利精品小视频| 日韩中文字幕有码午夜美女| 无码不卡av东京热毛片| 国产在线网址| 亚洲综合色视频在线免费观看| 国产亚洲视频在线播放| 亚洲欧美aⅴ在线资源| 亚洲男人的天堂精品一区二区| 国产av大片久久中文字幕| 极品人妻被黑人中出种子| 亚洲美女又黄又爽在线观看| 色婷婷久久免费网站| 人妻中文字幕一区二区视频| 日本阿v片在线播放免费| 女人与牲口性恔配视频免费| 久久熟女乱一区二区三区四区| 天堂蜜桃视频在线观看| 亚洲精品无人区| 最新亚洲人AV日韩一区二区| 日本高清一区二区三区不卡| 天天躁夜夜躁狠狠是什么心态| 国产乱人伦av在线无码| 无码啪啪熟妇人妻区| 亚洲天堂av福利在线| 免费拍拍拍网站| av无码精品一区二区乱子| 国产一区二区白浆在线观看| 国产午夜精品av一区二区麻豆| 99久久精品国产一区二区蜜芽| 扒开双腿操女人逼的免费视频| 熟女人妻中文字幕av| 无遮无挡爽爽免费视频| 校花高潮一区日韩| 久久精品国产亚洲av四叶草|