亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的生成式文本摘要技術(shù)綜述

        2021-11-18 02:18:24朱永清趙菲菲慕曉冬尤軒昂
        計算機(jī)工程 2021年11期
        關(guān)鍵詞:語料庫自動深度

        朱永清,趙 鵬,趙菲菲,慕曉冬,白 坤,尤軒昂

        (1.火箭軍工程大學(xué) 作戰(zhàn)保障學(xué)院,西安 710025;2.陸軍邊海防學(xué)院,西安 710025)

        0 概述

        自動文本摘要技術(shù)最早應(yīng)用于加拿大政府的天氣預(yù)報工作,后來被應(yīng)用于金融分析、醫(yī)療數(shù)據(jù)整理、法律文本處理等多個領(lǐng)域進(jìn)行輔助決策。在神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)被廣泛使用之前,大部分摘要類實現(xiàn)方法都是以抽取的方式,例如文獻(xiàn)[1-3]利用基于圖排序的摘要方法,文獻(xiàn)[4]利用基于啟發(fā)式規(guī)則的摘要方法,文獻(xiàn)[5]利用基于有監(jiān)督學(xué)習(xí)的摘要方法,文獻(xiàn)[6-8]利用基于神經(jīng)網(wǎng)絡(luò)的摘要方法,文獻(xiàn)[9-10]利用基于次模函數(shù)的摘要方法,文獻(xiàn)[11-13]利用基于預(yù)訓(xùn)練模型的摘要方法,等。以上方法均可以理解為序列到序列的抽取式摘要方法,即從原文中分析并提取出最重要的原文完整句子,進(jìn)行簡單拼接后得到一個抽取式摘要結(jié)果。在現(xiàn)實中的人工條件下,摘要更多的是生成式的過程,即在閱讀一段、一篇或多篇文段后,經(jīng)過腦內(nèi)抽象分析得到一個抽象理解,之后結(jié)合自己的知識結(jié)構(gòu)輸出為一段高度概括的內(nèi)容。因此,隨著深度學(xué)習(xí)的快速發(fā)展,自動文本摘要的方法逐漸由抽取式向生成式偏移。現(xiàn)已有不少國內(nèi)[14-15]和國外[16-18]的研究人員對目前的自動文本摘要方法進(jìn)行了綜述分析,但是針對生成式自動文本摘要的文獻(xiàn)綜述,如文獻(xiàn)[19-20],在直接將目前生成式自動文本摘要等價于基于深度學(xué)習(xí)后便不再深入分析,缺乏問題導(dǎo)向和足夠深入的研究,對于目前最新研究成果分析不夠充分。

        本文針對生成式文本摘要技術(shù),指出其在深度學(xué)習(xí)下的發(fā)展優(yōu)勢和關(guān)鍵問題,描述生成式摘要系統(tǒng)的基本結(jié)構(gòu)和數(shù)據(jù)預(yù)處理的相關(guān)基礎(chǔ)知識,并以關(guān)鍵問題為導(dǎo)向,展示基于深度學(xué)習(xí)的生成式摘要模型突出的研究成果,比較優(yōu)秀的深度預(yù)訓(xùn)練和創(chuàng)新方法融合模型。此外,介紹生成式摘要系統(tǒng)常用的數(shù)據(jù)集和評價標(biāo)準(zhǔn),并對這一技術(shù)的發(fā)展局限性及發(fā)展前景進(jìn)行分析。

        1 研究背景及現(xiàn)狀分析

        信息摘要是對海量數(shù)據(jù)內(nèi)容的提煉和總結(jié),以簡潔、直觀的摘要來概括用戶所關(guān)注的主要內(nèi)容,方便用戶快速了解關(guān)注目標(biāo)。文本類摘要作為眾多模態(tài)信息摘要中最常見的類型,通過篩選、提煉、總結(jié)等方式得到與原文語義相近但極大程度縮短長度的句段。隨著各類文本信息數(shù)量的爆炸式增長,公眾需求大量增加,自動文本摘要技術(shù)起到了重要作用。

        基于深度學(xué)習(xí)的生成式自動文本摘要任務(wù)模型主要具有以下優(yōu)點:

        1)靈活性高,允許生成的摘要中出現(xiàn)新的字詞或短語。

        2)相比于抽取式摘要,生成式摘要模型的思路更符合實際需求,其結(jié)果更貼近人工摘要的結(jié)果。

        3)生成式摘要能夠在建立完整語義信息的同時有效避免過多冗余信息。

        同時,基于深度學(xué)習(xí)的生成式自動文本摘要任務(wù)模型存在以下關(guān)鍵問題:

        1)未登錄詞(Out of Vocabulary,OOV)問題。在處理文本時,通常會有一個字詞庫,未登錄詞就是不在字詞庫中的單詞。這個字詞庫可以是提前加載的,可以是自己臨時定義的,也可以是從訓(xùn)練數(shù)據(jù)集提取的,如何處理未登錄詞是文本摘要任務(wù)的關(guān)鍵問題之一。

        2)生成重復(fù)問題。利用注意力得分從分布中采樣得到的字詞連續(xù)重復(fù)生成,導(dǎo)致語法不通或語義不明。

        3)長程依賴問題。在長文檔或多文檔摘要任務(wù)中,較長文檔或多文檔遠(yuǎn)距離語義抽取能力不足。

        4)評價標(biāo)準(zhǔn)問題。生成的摘要好壞,不僅單純地由評價指標(biāo)決定,同時也需要考慮語義相關(guān)性、語法準(zhǔn)確性、流暢性等問題。

        2 數(shù)據(jù)預(yù)處理及基本框架

        目前生成式自動文本摘要主流的基本框架是結(jié)合數(shù)據(jù)預(yù)處理[21-22]和編解碼器的序列到序列框架[23-24],其中涉及CNN[25]、RNN[26]、LSTM/GRU[27-28]、Transformer[29-30]、BERT[31]及其變體RoBERTa[32]等作為編碼器或解碼器的基本模型。

        在編碼器之前,需要實現(xiàn)數(shù)據(jù)的預(yù)處理,包括分詞、詞嵌入等。分詞是中文特有的需求,在實際的深度學(xué)習(xí)過程中,雖然無論是語義關(guān)聯(lián)還是文本生成都是基于字而非基于詞的,但是分詞的作用仍然很重要,它有利于下一步融合注意力機(jī)制的權(quán)重分配,其中,BERT、GPT[33-35]等預(yù)訓(xùn)練模型以及fastBERT[36]等蒸餾后的預(yù)訓(xùn)練模型[37-38]所使用的基于WordPiece[39]的分詞方法,常用于提高模型生成的準(zhǔn)確性和合理性。詞嵌入包括文檔嵌入[40-42]以及位置嵌入,是數(shù)據(jù)預(yù)處理中最重要的一環(huán),每一個單詞對應(yīng)唯一的詞向量,詞嵌入的誕生促使機(jī)器可以通過數(shù)學(xué)的方法對其進(jìn)行分析建模推演,這些向量是高維度的,通過分析這些高緯度向量,可以找出很多利于分析的規(guī)律。隨著機(jī)器學(xué)習(xí)的發(fā)展,趨向使用各種預(yù)訓(xùn)練模型加以適當(dāng)微調(diào),即可完成數(shù)據(jù)預(yù)處理工作,因此,預(yù)訓(xùn)練模型已經(jīng)成為詞嵌入的常態(tài)配置。

        目前在利用深度學(xué)習(xí)技術(shù)進(jìn)行自動文本摘要方面已經(jīng)有了不少研究成果,重點在于編碼器和解碼器的序列到序列框架。在將一個序列輸入框架之后,通過編碼器得到隱藏上下文向量,然后將其作為輸入送入解碼器,在解碼過程中計算概率分布得到輸出。目前,越來越多基于序列到序列框架的模型被提出,但基本上都是基于RUSH 等[43]提出的加入注意力機(jī)制的序列到序列框架,如圖1 所示。該模型有助于更好地生成摘要,已經(jīng)成為生成式自動文本摘要模型的主要框架。

        圖1 帶注意力機(jī)制的序列到序列神經(jīng)網(wǎng)絡(luò)模型框架Fig.1 Framework of sequence to sequence neural network model with attention mechanism

        3 模型關(guān)鍵技術(shù)分析及效果對比

        針對上文所述基于深度學(xué)習(xí)的生成式文本摘要模型中存在的關(guān)鍵問題,下文分析相應(yīng)問題的解決方案,介紹常用深度預(yù)訓(xùn)練生成摘要模型技術(shù),以及基于深度學(xué)習(xí)的創(chuàng)新性生成摘要模型技術(shù),并對主流生成式摘要模型在不同數(shù)據(jù)集上的效果進(jìn)行對比分析。

        3.1 針對未登錄詞問題的解決方案

        未登錄詞問題是生成式文本摘要任務(wù)中的首要問題,最開始的解決方法有替換成特殊字符“UNK”,或進(jìn)行刪除操作,或從原文中隨機(jī)抽取替換,但都會影響摘要生成效果。

        針對該問題,SEE等[44]提出指針生成器網(wǎng)絡(luò)(Point-Generator Network,PGN),即復(fù)制機(jī)制。針對序列到序列基本模型經(jīng)常不準(zhǔn)確再現(xiàn)事實細(xì)節(jié)的問題,通過指針從源文本中針對性復(fù)制單詞的方式,緩解了OOV 問題,既允許摘要單詞通過指針復(fù)制源文檔單詞的方式生成,也允許一定概率下從固定字詞庫中采樣生成。復(fù)制機(jī)制對于準(zhǔn)確地復(fù)制罕見但必須出現(xiàn)的單詞至關(guān)重要,如人名、地名等專有名詞。該方法已經(jīng)成為生成式文本摘要模型最常用的網(wǎng)絡(luò)模型之一。但該模型存在一個問題,即摘要中的新穎性字詞依賴于字詞庫中的新穎性字詞,這使得模型機(jī)制對于字詞庫有較大程度的依賴性。

        針對PGN存在的問題,CHAKRABORTY 等[45]分析指針生成網(wǎng)絡(luò)解決未登錄詞問題過程中不能生成新詞問題的根本原因,并通過增加未登錄詞懲罰機(jī)制,優(yōu)化可以生成新詞的生成式摘要模型效果。

        3.2 針對生成重復(fù)問題的解決方案

        生成重復(fù)問題指的是,基于注意力的序列到序列模型生成的摘要在注意力機(jī)制的影響下有傾向于生成重復(fù)字詞的情況,導(dǎo)致出現(xiàn)不必要的冗余或語法錯誤等問題。針對該問題,SEE 等[44]提出覆蓋(coverage)機(jī)制,利用注意力分布追蹤目前應(yīng)被選中的單詞,當(dāng)再次注意指向與上一時間步同一內(nèi)容時予以懲罰,解決基于注意力的序列到序列模型生成句子中經(jīng)常有重復(fù)片段現(xiàn)象的問題。

        雖然覆蓋機(jī)制解決了生成重復(fù)的問題,但是對于生成重復(fù)的情況并沒有做區(qū)分,因為有些主語是必須要重復(fù)生成的。因此,如果只是一味地避免重復(fù),對于生成式摘要而言是一種懲罰,會導(dǎo)致這類本該重復(fù)生成的詞會被替換為未生成過的其他詞,降低了摘要的質(zhì)量。為實現(xiàn)有選擇性的覆蓋,CHUNG等[46]提出MPG 模型,修正了主題詞無法選擇性重復(fù)生成的問題,提高了生成摘要的質(zhì)量。

        此外,LIN 等[47]提出了一個全局編碼框架。該框架基于源上下文的全局信息來控制從編碼器到解碼器的信息流,其由一個卷積選通單元組成,用于執(zhí)行全局編碼,以改善源端信息的表示,在提高生成摘要質(zhì)量的同時也達(dá)到了減少重復(fù)的目的。COHAN等[48]針對長序列摘要字詞重復(fù)生成的問題,跟蹤注意力作用范圍,提出解碼器覆蓋范圍作為注意力功能的附加輸入,以避免注意力重復(fù)指向相同的內(nèi)容。

        3.3 針對長程依賴問題的解決方案

        長程依賴問題指的是,面對較長或主旨不集中的輸入信息,通過加大輸入長度提高上下文向量的語義抽取能力時,后期輸入內(nèi)容對上下文向量語義的影響基本消失的問題。

        在基于注意力機(jī)制的序列到序列基礎(chǔ)模型基礎(chǔ)上,CHOPRA 等[49]以卷積注意力作為編碼器并以循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)作為解碼器,NALLAPATI 等[26]結(jié)合龐大字詞庫,利用RNN 作為編碼器解碼器來提高生成摘要質(zhì)量,但都深受RNN 長程依賴問題的影響。為減少該問題影響,COHAN 等[48]提出分層RNN 用以捕捉文檔話語結(jié)構(gòu),利用語篇相關(guān)信息來修改詞級注意功能,緩解長程依賴問題。CELIKYILMAZ 等[50]使用長短時記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)抽取句子的語義表示,利用深度代理通信(DCA)的方式解決長距離情況下如何更好進(jìn)行信息聚留的問題,并采用最大似然估計、語義銜接、逐句間強(qiáng)化學(xué)習(xí)策略等方式提高生成摘要的準(zhǔn)確性、連貫性、抽象程度。LIN 等[47]將雙向LSTM 作為編碼器,將單向LSTM 作為解碼器,并增加自注意(Self-Attention)模塊,挖掘某一時刻標(biāo)記(Token)之間的關(guān)系,提高全局信息關(guān)注能力,從而減少長程依賴影響。

        目前,越來越多研究著眼于利用預(yù)訓(xùn)練模型進(jìn)行生成式摘要生成。YANG 等[51]針對BERT 輸入長度受限的問題,提出通過對句子單獨應(yīng)用推理來解決這個問題,然后聚合句子分?jǐn)?shù)來產(chǎn)生文檔分?jǐn)?shù)的思想,以緩解BERT 的長程依賴問題。

        3.4 針對評價標(biāo)準(zhǔn)問題的解決方案

        評價標(biāo)準(zhǔn)問題包括兩點:1)生成式摘要任務(wù)訓(xùn)練模型需要考慮ROUGE 函數(shù)不可微而不適用于梯度計算的問題;2)生成式摘要任務(wù)中的評價標(biāo)準(zhǔn)常采用人工評價或ROUGE 自動評價標(biāo)準(zhǔn),但是生成式摘要的ROUGE 評價結(jié)果并不能充分說明摘要質(zhì)量,歸根于生成式摘要結(jié)果評價指標(biāo)希望更看重整體語義匹配程度,而ROUGE 更看重字詞組合的形式匹配。針對以上2 個評價標(biāo)準(zhǔn)問題,在設(shè)計損失函數(shù)時,需要考慮如何將ROUGE 標(biāo)準(zhǔn)融入損失函數(shù)及其優(yōu)化計算方法,同時設(shè)計兼具語義相似性和字詞匹配度的損失函數(shù)。

        針對第1個評價標(biāo)準(zhǔn)問題,NG等[52]提出針對ROUGE 的單詞嵌入方法,提高了摘要評估效果,其在使用斯皮爾曼(Spearman)和肯德爾(Kendall)秩系數(shù)測量時不測量詞匯重疊,而是通過詞嵌入來計算摘要中使用的詞的語義相似度,達(dá)到與人類評估更好的相關(guān)性,并避免2 個單詞序列具有相似含義時由于詞典表示法的差異而受到ROUGE 不公平處罰的影響。AYANA 等[53]將不可微而無法直接用作損失函數(shù)的ROUGE、BLEU 等評測指標(biāo)引入訓(xùn)練目標(biāo)函數(shù)中,使用最小風(fēng)險訓(xùn)練策略進(jìn)行優(yōu)化計算,改進(jìn)了標(biāo)題生成的效果。CELIKYILMAZ 等[50]使用強(qiáng)化學(xué)習(xí)的自我批判訓(xùn)練方法計算不可微的ROUGE 函數(shù)。LI 等[54]提出在卷積序列到序列框架中使用自臨界序列訓(xùn)練SCST 技術(shù)直接優(yōu)化模型,緩解了曝光偏差問題并實現(xiàn)了不可微的摘要度量ROUGE 的計算。

        針對第2 個評價標(biāo)準(zhǔn)問題,F(xiàn)ABBRI 等[55]使用神經(jīng)摘要模型輸出以及專家摘要和外包人工標(biāo)注摘要,以全面和一致的方式重新評估了12 個自動評估指標(biāo),并使用這些自動評估指標(biāo)對23 個最近的摘要模型進(jìn)行了基準(zhǔn)測試,得到一個更完整的文本摘要評估協(xié)議,提高摘要自動評估指標(biāo)的普適性。

        3.5 包含深度預(yù)訓(xùn)練框架的生成式文本摘要模型

        深度學(xué)習(xí)發(fā)展至今,隨著Transformer 框架的提出,原先由基于RNN、LSTM、GRU 等模型作為編碼器和解碼器的序列到序列模型,已經(jīng)發(fā)展為基于Transformer 的序列到序列模型,逐漸形成了深度預(yù)訓(xùn)練模型的主要框架。同時,對于訓(xùn)練集的需求也由有監(jiān)督學(xué)習(xí)向無監(jiān)督學(xué)習(xí)轉(zhuǎn)化,大幅提升了缺乏足夠有標(biāo)簽數(shù)據(jù)情況下的模型性能。

        目前,生成式文本摘要領(lǐng)域最常用的深度預(yù)訓(xùn)練模型包括MASS[56]、TAAS[57]、UniLM[58-59]、T5[60]、STEP[61]、BART[62]、PEGASUS[63]、ProphetNet[64]等。MASS[56]模型使用的方法是掩蔽序列到序列的生成,避免在給定句子剩余部分的情況下重構(gòu)句子片段,隨機(jī)選擇一個句子片段。TAAS[57]模型包含了1 個利用潛在主題表示文檔潛在語義結(jié)構(gòu)的主題感知抽象摘要模型框架。UniLM[58-59]模型包含3 種語言建模任務(wù)的聯(lián)合訓(xùn)練,即單向(從左到右和從右到左)、雙向(單詞級掩碼,帶有下一句預(yù)測)和序列到序列(單詞級掩碼)預(yù)測。T5[60]模型展示了擴(kuò)大模型大?。ㄖ?10 億個參數(shù))和預(yù)訓(xùn)練語料庫的優(yōu)勢,并引入了C4 大規(guī)模文本語料庫。該模型利用隨機(jī)損壞的文本段進(jìn)行預(yù)訓(xùn)練,這些文本段具有不同的掩碼比和段的大小。STEP[61]模型包含3 個與抽象摘要任務(wù)有關(guān)且都基于恢復(fù)源文本而設(shè)計的預(yù)訓(xùn)練目標(biāo),即句子重新排序(SR)、下一句生成(NSG)和屏蔽文檔生成(MDG)。與在更大的語料庫(≥160 GB)上進(jìn)行模型預(yù)訓(xùn)練相比,該模型在語料庫只有19 GB 的情況下仍然可以獲得相當(dāng)甚至更好的性能。BART[62]模型引入去噪自動編碼器對序列間模型進(jìn)行預(yù)訓(xùn)練,利用任意的噪聲函數(shù)破壞文本,并學(xué)習(xí)重構(gòu)原始文本。對于生成任務(wù),噪聲函數(shù)是文本填充,其使用單個掩碼標(biāo)記來掩碼隨機(jī)采樣的文本范圍。PEGASUS[63]模型提出了新的預(yù)訓(xùn)練目標(biāo)間隙句生成GSG(Gap Sentences Generation),從文檔中選擇并屏蔽整個句子,并將間隙句連接成偽摘要。ProphetNet[64]模型提出一個新穎的自監(jiān)督學(xué)習(xí)目標(biāo)函數(shù),即預(yù)測未來N元組(Predicting FutureN-gram)。與傳統(tǒng)序列到序列模型中Teacher-forcing 每一時刻只預(yù)測下一個字符不同,該模型每一時刻都在學(xué)習(xí)如何同時預(yù)測未來N個字符。

        以上基于Transformer 的序列到序列深度預(yù)訓(xùn)練框架的生成式文本摘要模型優(yōu)勢,在于不需要過多的有標(biāo)記數(shù)據(jù),僅憑借大量無標(biāo)記語料庫進(jìn)行預(yù)訓(xùn)練再用少量標(biāo)記數(shù)據(jù)微調(diào)即可,隨著預(yù)訓(xùn)練語料庫內(nèi)容的不斷擴(kuò)充,促使生成摘要的得分不斷提高。值得注意的是,這類框架極大地弱化了對標(biāo)記數(shù)據(jù)的需求和調(diào)試的門檻,但也大幅提高了語料庫精細(xì)程度及硬件訓(xùn)練的門檻,同時目前關(guān)于這些預(yù)訓(xùn)練模型可解釋性相關(guān)研究仍然缺乏,對于如何在預(yù)訓(xùn)練框架中優(yōu)化生成式摘要的未登錄詞、生成重復(fù)、長程依賴、評價標(biāo)準(zhǔn)等核心問題,缺乏足夠深入的研究。

        3.6 融合深度學(xué)習(xí)創(chuàng)新方法的生成式文本摘要模型

        為提高基于深度學(xué)習(xí)的生成式摘要模型性能,研究者通過嘗試與其他領(lǐng)域模型及方法的創(chuàng)新融合,在不同方面推進(jìn)了生成式摘要模型的發(fā)展。

        GUO 等[65]通過融合具有問題生成和蘊(yùn)涵生成等輔助任務(wù)的多任務(wù)學(xué)習(xí)模型,提高了抽象摘要的蘊(yùn)含源文本核心信息能力,并提出新的多任務(wù)體系結(jié)構(gòu),總體上提高了摘要模型的學(xué)習(xí)顯著性和蘊(yùn)含能力。XU 等[66]融合圖卷積網(wǎng)絡(luò)模型,使用圖來連接文檔中句子的解析樹,并使用堆疊圖卷積網(wǎng)絡(luò)來學(xué)習(xí)文檔的語法表示,通過選擇性注意機(jī)制提取語義和結(jié)構(gòu)方面的顯著信息并優(yōu)化生成摘要結(jié)果。ZOU等[61]融合自建大規(guī)模語料庫,使用無監(jiān)督訓(xùn)練方法,達(dá)到了有監(jiān)督訓(xùn)練的效果。ZHENG 等[67]為播客領(lǐng)域的生成式摘要提供了基線分析,突出分析了當(dāng)前先進(jìn)預(yù)訓(xùn)練模型在該領(lǐng)域的效果。CHEN 等[68]針對對話摘要生成問題提出一個多視圖序列到序列模型,從不同的視圖中提取非結(jié)構(gòu)化日常聊天的會話結(jié)構(gòu)來表示會話,利用多視圖解碼器來合并不同的視圖以生成對話摘要。ZHENG 等[57]通過融合神經(jīng)主題模型,有效提高了摘要生成效果及全局語義蘊(yùn)含。FABBRI 等[69]引入一種稱為維基轉(zhuǎn)換的通用方法,以無監(jiān)督、特定于數(shù)據(jù)集的方式微調(diào)摘要的預(yù)處理模型,在零樣本抽象摘要模型性能比較中取得了最優(yōu),同時為少樣本情況提供了研究依據(jù)。ZAGAR等[70]提出跨語言生成式摘要模型,針對小語種資源少的問題,使用一個基于深度神經(jīng)網(wǎng)絡(luò)和序列到序列架構(gòu)的預(yù)處理英語摘要模型來總結(jié)斯洛文尼亞新聞文章,通過使用額外的語言模型進(jìn)行目標(biāo)語言評估來解決解碼器不足的問題。

        通過上述研究可以發(fā)現(xiàn),利用其他領(lǐng)域的知識遷移可以提高生成式自動文本摘要的生成效果。

        3.7 模型對比

        以上對深度學(xué)習(xí)下的生成式文本摘要模型的分類與說明,表明專用模型精于解決于特定問題,具有不同的算法原理、編解碼器、適用范圍、優(yōu)勢、局限性等,因此,需要根據(jù)實際情況進(jìn)行研究后再使用,融合出更優(yōu)秀的生成式自動文本摘要模型。針對專用模型的編解碼器、解決核心問題的方案比較如表1所示。

        表1 不同模型的編解碼器、核心問題解決方案比較Table 1 Comparison of codec and core problem solving methods of different models

        由表1可見,指針網(wǎng)絡(luò)(PGN)中的Copy 和Coverage 模塊是較多模型處理未登錄詞和生成重復(fù)問題的主要模塊,而處理長程依賴和評價標(biāo)準(zhǔn)問題的方法各不相同,缺乏較為權(quán)威的標(biāo)桿模型。對于預(yù)訓(xùn)練模型,利用Transformer 的多頭注意力可緩解長程依賴問題,經(jīng)過大容量語料庫的訓(xùn)練,學(xué)到的序列內(nèi)字詞之間的關(guān)系也更全面,降低了遇到未登錄詞和生成重復(fù)的幾率,因此,很少有專門針對4 個核心問題的模塊。各模型的算法核心技術(shù)、適用范圍、優(yōu)勢和局限性比較如表2 所示。

        表2 不同模型的算法核心、適用范圍、優(yōu)勢和局限性比較Table 2 Comparison of core algorithm,application scope,advantages and limitations of different models

        3.8 實驗效果對比與分析

        目前主流模型主要采用Cnn&Dailymail stories[26,44]、Gigaword[43,71]、DUC-2004、LCSTS[72]這4種數(shù)據(jù)集。評價標(biāo)準(zhǔn)通常采用ROUGE[73]標(biāo)準(zhǔn)中的ROUGE-1、ROUGE-2 和ROUGE-L。將不同模型在各個數(shù)據(jù)集上的ROUGE 分?jǐn)?shù)進(jìn)行對比,如表3 所示,數(shù)據(jù)取自各模型的最優(yōu)分,加粗表示該項數(shù)據(jù)各模型中的最優(yōu)值。可以看出,基于深度學(xué)習(xí)的生成式摘要模型,ROUGE-1、ROUGE-2、ROUGE-L 評價得分在Cnn&Dailymail 數(shù)據(jù)集上最高分別提高了8.53、8.65、8.02 分,在Gigaword語料庫上分別提高了8.67、8.05、8.80 分,在DUC-2004數(shù)據(jù)集上分別提高了4.60、3.81、5.63 分,在LCSTS 數(shù)據(jù)集上分別提高了6.92、7.88、7.28 分,總體效果提升顯著。

        表3 不同數(shù)據(jù)集上常用模型的ROUGE 分?jǐn)?shù)對比Table 3 Comparison of ROUGE scores of common models on different datasets

        基于深度學(xué)習(xí)的生成式摘要模型較傳統(tǒng)模型有較大程度的突破,但仍有較大的進(jìn)步空間,主要包括:

        1)ProphetNet模型[62]在英文數(shù)據(jù)集Cnn&Dailymail 和Gigaword 上的效果最好,其他預(yù)訓(xùn)練模型如UniLM、T5、STEP、BART、PEGASUS 等均有不弱于ProphetNet 的表現(xiàn),差距不明顯。

        2)雖然RTC 模型[54]在中文數(shù)據(jù)集LCSTS 上的效果最好,但由于預(yù)訓(xùn)練模型尚未在中文數(shù)據(jù)集LCSTS上進(jìn)行實驗,因此模型的中英文泛化能力有待進(jìn)一步驗證。在目前生成式摘要領(lǐng)域中,中文的進(jìn)展相較于英文是短暫且緩慢的,實驗數(shù)據(jù)遠(yuǎn)遠(yuǎn)不夠。

        3)這些模型總體上能夠較大程度地提升摘要生成效果,但大部分模型都僅在一兩個數(shù)據(jù)集上進(jìn)行實驗,不夠完備。

        4)大部分模型都基于短文本摘要,目前在長文本、多文檔文本、特定領(lǐng)域文本等方面缺乏模型及其效果的數(shù)據(jù)對比。

        4 常用數(shù)據(jù)集及評價標(biāo)準(zhǔn)

        4.1 常用數(shù)據(jù)集

        適用于生成式自動文本摘要任務(wù)的常用數(shù)據(jù)集包括Cnn&Dailymail 數(shù)據(jù)集、Gigaword 語料庫、會議共享數(shù)據(jù)集、LCSTS 單文本摘要數(shù)據(jù)集等。

        1)Cnn&Dailymail 數(shù)據(jù)集。Cnn&Dailymail 是單文本摘要數(shù)據(jù)集,由30 萬篇新聞短文摘要對組成,該數(shù)據(jù)集為英文數(shù)據(jù)集。

        2)Gigaword 語料庫。Gigaword 語料庫包含 約380 萬個訓(xùn)練樣本、19 萬個驗證樣本和1 951 個測試樣本用于評估。輸入摘要對由源文章的標(biāo)題行和第一句組成,該數(shù)據(jù)集為英文數(shù)據(jù)集。

        3)會議共享數(shù)據(jù)集。常用的會議共享數(shù)據(jù)集包括DUC 和NLPCC 數(shù)據(jù)集。DUC(Document Understanding Conference)是摘要評估領(lǐng)域的國際評測會議,各大文本摘要系統(tǒng)均熱衷于此進(jìn)行測評比較,這里提供的數(shù)據(jù)集都是小型數(shù)據(jù)集,用于評測模型。最常用的是DUC-2004 數(shù)據(jù)集,該會議共享數(shù)據(jù)集為英文數(shù)據(jù)集。NLPCC(Natural Language Processing and Chinese Computing)是CCF 國際自然語言處理與中文計算會議,NLPCC2015、NLPCC2017、NLPCC2018均有摘要任務(wù)相關(guān)的摘要數(shù)據(jù)集,該會議共享數(shù)據(jù)集為中文數(shù)據(jù)集。

        4)LCSTS 單文本摘要數(shù)據(jù)集。LCSTS(Largescale Chinese Short Text Summarization dataset),是哈工大提出的從新浪微博獲取的短文本新聞?wù)形臄?shù)據(jù)集。該語料庫由240 萬篇真實的漢語短文組成,每一篇文章的作者都給出了簡短的摘要,其中手工標(biāo)記了10 666 個簡短摘要與相應(yīng)的簡短文本的相關(guān)性。

        5)其他數(shù)據(jù)集。除了以上數(shù)據(jù)集,還可以通過其他不同途徑獲取數(shù)據(jù)集,如文獻(xiàn)[74]發(fā)布的一個基于新浪微博的中文數(shù)據(jù)集,共包含863 826 個樣本,以及通過參加摘要類比賽獲取相關(guān)數(shù)據(jù)集等。

        目前生成式自動文本摘要領(lǐng)域的主流數(shù)據(jù)集偏向于英文,由于國內(nèi)在該領(lǐng)域的研究滯后于國外,因此對于中文數(shù)據(jù)集的制作、共享、使用及研究程度不深。此外,常用數(shù)據(jù)集多為短文本數(shù)據(jù)集,長文本或多文檔數(shù)據(jù)集尤為缺乏。隨著深度學(xué)習(xí)的不斷發(fā)展,各研究對于數(shù)據(jù)集的需求急速加大,需要各界學(xué)者持續(xù)加大對于該領(lǐng)域數(shù)據(jù)集的全方面研究力度,其中包括長文本摘要數(shù)據(jù)集、多文檔摘要數(shù)據(jù)集、多語言混合摘要數(shù)據(jù)集、科研或醫(yī)學(xué)或法律等方面具有領(lǐng)域特色的細(xì)粒度摘要數(shù)據(jù)集,等。

        4.2 評價標(biāo)準(zhǔn)

        生成式自動文本摘要評價標(biāo)準(zhǔn)可以分為人工測評方法和自動測評方法2 種。人工測評即專家進(jìn)行人工評判,綜合考慮摘要的流暢性、中心思想相關(guān)性、可解釋性等方面進(jìn)行評價。本文主要介紹自動測評的評價標(biāo)準(zhǔn),其中分為內(nèi)部評價和外部評價標(biāo)準(zhǔn)2 類,內(nèi)部評價標(biāo)準(zhǔn)包含信息量、連貫性、可讀性、長度、冗余度等,外部評價標(biāo)準(zhǔn)為間接評價,包含檢索準(zhǔn)確度、分類準(zhǔn)確度等。在生成式自動文本摘要任務(wù)中,ROUGE(Recall-Oriented Understudy for Gisting Evaluation)[73]是一種常用的評價標(biāo)準(zhǔn)。ROUGE重在召回率,將系統(tǒng)生成的自動摘要與人工生成的標(biāo)準(zhǔn)摘要做對比,通過統(tǒng)計兩者之間重疊的基本單元數(shù)目,來評價摘要的質(zhì)量。在當(dāng)前環(huán)境下,ROUGE 是最常用的自動文本摘要評價標(biāo)準(zhǔn),而ROUGE-1、ROUGE-2、ROUGE-L 是其中最常用于評價自動文本摘要效果的3 個子標(biāo)準(zhǔn)。

        雖然ROUGE 評價標(biāo)準(zhǔn)已經(jīng)得到了廣泛的認(rèn)可,但是抽取式摘要方向在深度學(xué)習(xí)提出之前占據(jù)了自動文本摘要領(lǐng)域的主導(dǎo)地位,ROUGE 評價方法也深受影響。在隨深度學(xué)習(xí)快速發(fā)展的生成式摘要任務(wù)領(lǐng)域,該方法評測質(zhì)量比不上人工,因為它只是從基本語義單元的匹配上去評測候選摘要和標(biāo)準(zhǔn)摘要之間的相似性,缺少語義方面的維度比較,注重外部評價而欠缺內(nèi)部評價。針對ROUGE 不可微的缺陷,不少研究在設(shè)計損失函數(shù)時,將ROUGE 評價標(biāo)準(zhǔn)融入損失函數(shù)并訓(xùn)練優(yōu)化方法[53]。

        針對ROUGE 缺少內(nèi)部評價的缺陷,越來越多研究者提出內(nèi)部評價優(yōu)先的評價標(biāo)準(zhǔn),ZHANG 等[75]提出命名為BERTScore 的文本自動生成評價指標(biāo),計算候選句子中每個標(biāo)記與引用中每個標(biāo)記的相似性分?jǐn)?shù),即使用具有上下文信息的BERT 嵌入來計算相似度。在多個機(jī)器翻譯和圖像字幕基準(zhǔn)上的評估結(jié)果表明,在與人類判斷的相關(guān)性這一維度,該評價指標(biāo)比現(xiàn)有的度量標(biāo)準(zhǔn)更準(zhǔn)確,甚至優(yōu)于特定任務(wù)的監(jiān)督度量標(biāo)準(zhǔn),可以作為自動文本摘要評價標(biāo)準(zhǔn)之一。FABBRI 等[64]將BERTScore 作為建立摘要模型評價體系的12 個指標(biāo)之一,用以評價摘要模型的連貫性、一致性、流暢性、關(guān)聯(lián)性等特性。CHAKRABORTY 等[45]使用自定義的歸一化n-gram新穎性標(biāo)準(zhǔn)對生成式摘要進(jìn)行比較,實現(xiàn)新詞生成方面的較大突破,但新穎性主導(dǎo)勢必會導(dǎo)致ROUGE評分一定程度的降低。BHANDARI 等[76]研究無人評判下的自動評估有效性問題,提出不局限于狹窄評分范圍,同時從摘要生成的難易性、抽象性和覆蓋面間進(jìn)行綜合評估,強(qiáng)調(diào)了需要收集人類的判斷來識別值得信賴的度量標(biāo)準(zhǔn),表示比較相關(guān)性時應(yīng)使用統(tǒng)一寬度的箱以確保更穩(wěn)健的分析,指出比較抽象數(shù)據(jù)集上的摘要系統(tǒng)時需要謹(jǐn)慎使用自動評價標(biāo)準(zhǔn)。

        雖然越來越多的研究者認(rèn)清并針對ROUGE 的缺陷提出各種假設(shè)和實驗方案,但仍沒有一個方案取代ROUGE 這一評價標(biāo)準(zhǔn),因此,設(shè)計一個更為合適和權(quán)威的綜合外部評價和內(nèi)部評價的摘要評價標(biāo)準(zhǔn),是目前文本摘要任務(wù)領(lǐng)域的一個重要研究方向。

        5 發(fā)展局限性及前景分析

        隨著深度學(xué)習(xí)的快速發(fā)展,語義提取模型從早期使用正則和傳統(tǒng)的機(jī)器學(xué)習(xí)方法向pipeline 的方式進(jìn)化,再進(jìn)化到端到端的自動摘要模塊textsum[77]和序列到序列框架。同時,模型使用的特征抽取器也逐步進(jìn)化,從CNN、RNN 到LSTM/GRU,再到基于Transformer 的MASS[56]、TAAS[57]、UniLM[58-59]、T5[60]、STEP[61]、BART[62]、PEGASUS[63]、ProphetNet[64]等 預(yù)訓(xùn)練模型,信息抽取能力越發(fā)強(qiáng)大。深度學(xué)習(xí)理論發(fā)展至今,預(yù)訓(xùn)練的語料庫數(shù)據(jù)越來越龐大,模型學(xué)習(xí)能力越來越強(qiáng)。但是,預(yù)訓(xùn)練的基礎(chǔ)是對語料庫的預(yù)訓(xùn)練,而語料庫總有極限也很快會到達(dá)極限,那么預(yù)訓(xùn)練模型的突破必然會受限于語料庫的數(shù)量和質(zhì)量。同時,模型網(wǎng)絡(luò)越發(fā)龐大意味著參數(shù)的急劇增長,必須對此進(jìn)行研究,否則模型系統(tǒng)會出現(xiàn)越來越大的黑盒。黑盒的不可解釋性和不可控性必然阻礙人工智能的可信賴程度,從而可能導(dǎo)致未來發(fā)展的不可控性。

        本文針對深度學(xué)習(xí)的生成式文本摘要技術(shù)指出以下6 個方面的發(fā)展前景:

        1)目前各模型在ROUGE 得分方面穩(wěn)中有進(jìn),多數(shù)模型建立的目標(biāo)中包含關(guān)鍵問題的部分作為目標(biāo)函數(shù),但更值得深究的是與關(guān)鍵問題之間的關(guān)聯(lián)程度,因此,應(yīng)繼續(xù)探索解決生成式自動文本摘要關(guān)鍵問題(未登錄詞、生成重復(fù)、長程依賴等)的解決方案,盡可能在一個模型中解決多個問題,研究仍有較大探索空間。

        2)推動制定更權(quán)威的生成式自動文本摘要評價標(biāo)準(zhǔn),改進(jìn)ROUGE 偏向外部評價的缺陷,提高對于生成式摘要模型輸出的準(zhǔn)確性、語義相關(guān)性、冗余性、流暢性等屬性的評價標(biāo)準(zhǔn)權(quán)威性。

        3)促進(jìn)傳統(tǒng)摘要模型思想與基于深度學(xué)習(xí)的生成式自動文本摘要模型思想進(jìn)一步融合。例如抽取式與生成式的融合:針對長文檔,首先利用抽取式模型將重要句子抽取,轉(zhuǎn)化為符合中心思想的中短文檔,再將文檔送入生成式模型進(jìn)一步壓縮為短摘要。

        4)強(qiáng)化可解釋性方面的研究,加速與知識圖譜領(lǐng)域的融合,如常識的引入、提高挖掘知識蘊(yùn)含或推理知識的能力、注意力模塊方面在不同的位置或形式對于摘要結(jié)果的可解釋性等。

        5)加速摘要模型的創(chuàng)新性發(fā)展,如推動與其他領(lǐng)域或任務(wù)模型相融合、改進(jìn)語義抽取模型、多語言的融合模型、長短文及多文檔綜合性文摘模型、多模態(tài)摘要模型、腦機(jī)信號分布融入甚至取代注意力分布的摘要模型、用無監(jiān)督小數(shù)據(jù)集訓(xùn)練代替有監(jiān)督大數(shù)據(jù)集訓(xùn)練的摘要模型等。

        6)深化摘要任務(wù)的下游任務(wù)發(fā)展,如基于摘要的整編(例如某部門的年終總結(jié)可由下屬不同職能的分部部門年終總結(jié)摘要整編生成)、基于摘要的二次摘要(例如部門某方面的年終總結(jié)由下屬相同職能的分部部門年終總結(jié)摘要整編生成。此外,第3 個趨勢前景也屬于一種二次摘要任務(wù))、基于摘要的合理研判(如對于投資市場,通過對投資對象的實時新聞等進(jìn)行匯總并生成摘要總結(jié),并基于摘要總結(jié)研判投資趨勢)、基于摘要的事實分析(針對生成的摘要內(nèi)容可能偏離事實的問題,通過融入知識圖譜或多專家模型等方法,比對結(jié)果后修正生成摘要的事實準(zhǔn)確程度)等。

        6 結(jié)束語

        基于深度學(xué)習(xí)的生成式文本摘要任務(wù)是自然語言處理領(lǐng)域的核心任務(wù)之一,其中蘊(yùn)含的各類問題需要被關(guān)注并加以解決,傳統(tǒng)基于淺層神經(jīng)網(wǎng)絡(luò)的方法已經(jīng)逐漸被基于深度學(xué)習(xí)的方法超越,但是新的模型方法也有自身的問題。本文總結(jié)基于深度學(xué)習(xí)的生成式文本摘要任務(wù)領(lǐng)域相關(guān)文獻(xiàn)資料,分析未登錄詞、生成重復(fù)、長程依賴、評價標(biāo)準(zhǔn)這4 個核心問題,并以此為分類標(biāo)準(zhǔn)對模型進(jìn)行分類,研究各模型針對核心問題的解決效果,通過匯總模型設(shè)計、數(shù)據(jù)集、評價指標(biāo)、生成效果等方面性能,對比分析各模型自身的優(yōu)勢及局限性,并給出相應(yīng)的解決方案。在此基礎(chǔ)上,對該技術(shù)未來發(fā)展進(jìn)行局限性分析與前景展望。

        猜你喜歡
        語料庫自動深度
        深度理解一元一次方程
        自動捕盜機(jī)
        《語料庫翻譯文體學(xué)》評介
        深度觀察
        深度觀察
        深度觀察
        基于STM32的自動喂養(yǎng)機(jī)控制系統(tǒng)
        電子測試(2018年10期)2018-06-26 05:53:36
        把課文的優(yōu)美表達(dá)存進(jìn)語料庫
        關(guān)于自動駕駛
        汽車博覽(2016年9期)2016-10-18 13:05:41
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        亚洲免费视频网站在线| 亚洲av无码一区二区三区人| 日本精品一区二区三区二人码| 久久久久久无码av成人影院| 国产人妻黑人一区二区三区 | 国产无遮挡又黄又爽无VIP| 日本老熟妇五十路一区二区三区| 五月天激情电影| 三年片免费观看大全国语| 日韩亚洲制服丝袜中文字幕| 国产女主播在线免费看| 色综合天天综合网国产成人网| 亚洲av国产精品色午夜洪2| av无码精品一区二区乱子| 日韩日本国产一区二区| 久久精品99国产精品日本| 中文亚洲成a人片在线观看| 国产一区二区牛影视| 日本一区二区在线播放| 国产高清一区二区三区三州| 大学生粉嫩无套流白浆| 国产98在线 | 免费| 国产欧美日韩不卡一区二区三区 | 精品中文字幕手机在线| 国产91色综合久久高清| 国产女主播精品大秀系列| 久久99精品久久久久久hb无码| 另类专区欧美在线亚洲免费| 亚洲中文字幕日本日韩| 北条麻妃在线中文字幕| 国产特级毛片aaaaaa视频| 国产福利免费看| 色婷婷综合一区二区精品久久| 娇小女人被黑人插免费视频| 亚洲性啪啪无码av天堂| 视频国产精品| 国产愉拍91九色国产愉拍| 午夜免费视频| 三上悠亚精品一区二区久久| 男女男生精精品视频网站| 九九综合va免费看|