亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        以對(duì)比學(xué)習(xí)與時(shí)序遞推提升摘要泛化性的方法

        2024-03-19 11:47:28湯文亮陳帝佑桂玉杰劉杰明徐軍亮
        關(guān)鍵詞:文本模型

        湯文亮,陳帝佑,桂玉杰,劉杰明,徐軍亮

        (華東交通大學(xué)信息工程學(xué)院,南昌 330013)

        0 引言

        生成式文本摘要領(lǐng)域如今已有很多大型的Se-q2Seq模型,從最初循環(huán)神經(jīng)網(wǎng)絡(luò)的提出標(biāo)志著生成式摘要模型雛形的誕生[1],到LSTM[2]和GRU[3]等模型的出現(xiàn),緩解了數(shù)據(jù)時(shí)序性對(duì)于文本長(zhǎng)度的依賴問(wèn)題。后來(lái)有指針網(wǎng)絡(luò)(PN)[4]和指針生成網(wǎng)絡(luò)(PGN)[5]的提出,有效解決了OOV(out-of-vocabul-ary)問(wèn)題,又隨著基于注意力機(jī)制的Transformer[6]問(wèn)世,模型對(duì)于文本特征提取達(dá)到了一個(gè)前所未有的高度,使得自然語(yǔ)言處理領(lǐng)域的模型進(jìn)入了一個(gè)新紀(jì)元。隨后對(duì)于通用的自然語(yǔ)言任務(wù)場(chǎng)景的特征提取誕生了不少大參數(shù)量的模型,如基于Transformer編碼器結(jié)構(gòu)的BERT[7]能夠充分獲取文本的上下文信息,也對(duì)文本生成任務(wù)提供了巨大幫助;X-LNet[8]在大量無(wú)標(biāo)簽數(shù)據(jù)中訓(xùn)練,從而能夠有效避免訓(xùn)練過(guò)程中的偏差問(wèn)題;基于Transformer解碼器結(jié)構(gòu)的GPT模型[9],其解碼器的特點(diǎn)使得GPT能夠在文本生成類任務(wù)上有著極佳的表現(xiàn)。

        以上提到的諸多模型都是基于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型構(gòu)建和訓(xùn)練的,通過(guò)模型的輸出結(jié)果與標(biāo)簽以極大似然估計(jì)的方式來(lái)構(gòu)建損失函數(shù)。同時(shí),對(duì)于傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)模型的改進(jìn)方法都已十分成熟,因此想從優(yōu)化模型本身結(jié)構(gòu)的方式入手來(lái)優(yōu)化文本信息的特征提取不是一件容易的事情。

        但傳統(tǒng)訓(xùn)練方式往往會(huì)導(dǎo)致模型的泛化性無(wú)法達(dá)到最佳,SimCLS[10]和BRIO[11]通過(guò)構(gòu)建多個(gè)候選摘要的方式,將候選摘要按照某種分?jǐn)?shù)排序[12],利用候選摘要的句間信息構(gòu)建對(duì)比損失函數(shù)[13],使得模型的泛化性得到提升,從而在測(cè)試集上取得更好的效果。

        通過(guò)候選摘要間對(duì)比損失的訓(xùn)練方式(每一個(gè)候選摘要都會(huì)以分?jǐn)?shù)高于自身的摘要為正樣本,分?jǐn)?shù)較低的作為負(fù)樣本)雖然能讓模型的泛化性得到提升,但當(dāng)分?jǐn)?shù)較高的正樣本與參考摘要內(nèi)容差距較大或者與負(fù)樣本內(nèi)容差距較小時(shí)就會(huì)“誤導(dǎo)”模型在文本生成中g(shù)(ci|D;θ)→ci+1的能力,從而導(dǎo)致生成的文本準(zhǔn)確性降低,其中g(shù)表示模型,D表示原文檔,θ表示模型的參數(shù),ci表示任意一個(gè)候選摘要的第i個(gè)詞元。

        為了緩解上述訓(xùn)練方式的“誤導(dǎo)”問(wèn)題,提出了3種解決方式使得模型在提高泛化性的同時(shí),能夠提升解碼器輸出的候選摘要與其對(duì)應(yīng)候選標(biāo)簽的文本相似度。

        方法1:通過(guò)構(gòu)建反語(yǔ)意文本,替換候選集中的原文本來(lái)增大正樣本與負(fù)樣本間的距離,將分?jǐn)?shù)越低的樣本以更大概率“反語(yǔ)意”化,達(dá)到負(fù)樣本“更負(fù)”的效果。

        方法2:從候選集句間的關(guān)系層面控制準(zhǔn)確度,在Seq2Seq模型輸出的概率分布中,不僅是選取候選集中每一個(gè)句子對(duì)應(yīng)的標(biāo)簽概率來(lái)計(jì)算句子之間的對(duì)比損失值,還以貪心搜索的方式計(jì)算每一句摘要輸出的最大概率值的詞元來(lái)計(jì)算對(duì)比損失值,從而進(jìn)一步提升泛化性。

        方法3:從每一候選摘要句內(nèi)詞元層面細(xì)粒度控制準(zhǔn)確度,使每一個(gè)候選摘要的時(shí)序概率最大化。與傳統(tǒng)極大似然估計(jì)不同的是,該方法通過(guò)構(gòu)建遞推關(guān)系式xi=f(xi-1),降低對(duì)當(dāng)前詞元本身概率值的關(guān)心度,更在意對(duì)于任意摘要的第i個(gè)詞元,在前i-1個(gè)詞元推理正確的情況下,使第i個(gè)詞元的分?jǐn)?shù)最大化,從而保證在推理過(guò)程中每一個(gè)時(shí)間步的準(zhǔn)確性。

        1 基線模型與訓(xùn)練方式

        無(wú)論是基于Transformer結(jié)構(gòu)的模型、圖神經(jīng)網(wǎng)絡(luò)模型[14]或者文本卷積模型[15],其核心應(yīng)用都是以不同的方式提取文本特征[16]。

        從基礎(chǔ)模型的角度來(lái)說(shuō),基于Transformer的大模型結(jié)構(gòu)在文本生成任務(wù)中的效果遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有的圖結(jié)構(gòu)和卷積網(wǎng)絡(luò)結(jié)構(gòu)。因此,本文選擇的2個(gè)基礎(chǔ)模型正是基于Transformer結(jié)構(gòu)的較大體量的模型。

        1.1 基線模型

        選取以雙向自回歸方式訓(xùn)練的BART[17]和以掩蓋式語(yǔ)言建模MLM(mask languagemodel)訓(xùn)練的PEGASUS模型[18]作為基礎(chǔ)模型。

        其中,BART是FaceBook在CNN/DailyMail數(shù)據(jù)上微調(diào)的BART-LARGE(406.29 M參數(shù)量)和Google在Xsum數(shù)據(jù)上微調(diào)的PEGASUS(569.75 M參數(shù)量),并且以Rouge[19]分?jǐn)?shù)作為主要評(píng)價(jià)指標(biāo)。

        表1所示的是多種結(jié)合Transformer結(jié)構(gòu)的模型分別在CNN/DailyMail(CNNDM)和Xsum數(shù)據(jù)集上的Rouge分?jǐn)?shù),其中R-1、R-2、R-L分別表示Rouge-1、Rouge-2、Rouge-Lsum。

        表1 基線模型的Rouge分?jǐn)?shù)(采用F1分?jǐn)?shù)作為指標(biāo))

        1.2 訓(xùn)練方式

        1.2.1 訓(xùn)練流程

        如圖1所示的是本次實(shí)驗(yàn)的整體訓(xùn)練流程①本次實(shí)驗(yàn)的源代碼、模型和實(shí)驗(yàn)結(jié)果提供在https://github.com/cq-cdy/ecjtu-brio-improved。,首先將CNNDM和Xsum數(shù)據(jù)集分別經(jīng)過(guò)基礎(chǔ)模型BART-LARGE和PEGASUS,以beamwidth=N和隨機(jī)采樣等方式生成候選摘要,并且與參考摘要一同并為候選集標(biāo)簽,即整個(gè)候選集的摘要數(shù)目為1+N。

        將候選集輸入解碼器得到整個(gè)候選集的概率分布,圖1中wi表示每一個(gè)詞元級(jí)別的概率分?jǐn)?shù)值,pi表示每一句摘要的評(píng)估分?jǐn)?shù),將在后文從每一個(gè)候選摘要輸出的概率分?jǐn)?shù)入手,對(duì)整個(gè)候選集的輸出進(jìn)行約束。

        1.2.2 數(shù)據(jù)增強(qiáng)

        此前,Gao等[20]在SimCSE中提出了一種僅對(duì)原文檔做Dropout的數(shù)據(jù)增強(qiáng)方式來(lái)構(gòu)建對(duì)比學(xué)習(xí)的正負(fù)樣本,但此方法對(duì)于增大正負(fù)樣本的距離有一定的局限性。

        由于本文在與基線模型相同的數(shù)據(jù)集上微調(diào),因此在進(jìn)行訓(xùn)練時(shí)需要對(duì)數(shù)據(jù)加入噪聲,盡量增大負(fù)樣本與正樣本的距離。將候選集從解碼器輸入時(shí),都會(huì)在給定原文檔D的情況下,輸入標(biāo)簽詞元ci來(lái)預(yù)測(cè)下一個(gè)標(biāo)簽詞元。

        當(dāng)候選集數(shù)量足夠多時(shí),那么候選集間的詞元在隨機(jī)采樣和beamseach的驅(qū)使下就有著足夠的相異性,但所有候選摘要的語(yǔ)意方向卻趨于一致,因此采用前文所提到的方法1以反語(yǔ)意替換的方式進(jìn)行數(shù)據(jù)增強(qiáng),使得文本生成存在2種輸出方式:

        其中,c*表示反語(yǔ)意樣本,且按照候選摘要與參考摘要的某種分?jǐn)?shù)對(duì)整個(gè)候選集進(jìn)行排序的情況下,排序越靠后的摘要與參考摘要的分?jǐn)?shù)差距越大。

        將分?jǐn)?shù)排名越靠后的候選摘要以更大的概率進(jìn)行反語(yǔ)意文本替換(如圖2所示),從而更加體現(xiàn)出分?jǐn)?shù)較低的候選摘要作為負(fù)樣本出現(xiàn)的作用。且圖中的n表示該摘要的排名,N表示候選集總數(shù),p(n)表示第n個(gè)摘要進(jìn)行反語(yǔ)意替換的概率。

        2 損失函數(shù)設(shè)計(jì)

        大多數(shù)Seq2Seq模型都使用模型預(yù)測(cè)的詞元和標(biāo)簽詞元來(lái)構(gòu)建基于最大似然估計(jì)的損失函數(shù)。然而,傳統(tǒng)的訓(xùn)練方法仍然存在過(guò)擬合問(wèn)題,為了提高模型的泛化性,可以通過(guò)生成更廣泛概率分布的候選集來(lái)擴(kuò)展詞元空間。

        圖3所示的是整個(gè)候選集輸出的概率分布圖,其中紅色輪廓代表某一個(gè)時(shí)間步的概率值最大的詞元,綠色填充表示該摘要的候選標(biāo)簽對(duì)應(yīng)的概率值,縱向?qū)嵕€表示損失函數(shù),縱向虛線表示損失函數(shù)(將在后文對(duì)和進(jìn)行介紹)。

        將兩兩相異但語(yǔ)意相近的摘要作為標(biāo)簽輸入模型進(jìn)行訓(xùn)練,同時(shí)將候選集按照Rouge分?jǐn)?shù)降序排序,建立摘要間的對(duì)比損失函數(shù)來(lái)提高模型的泛化性,并建立對(duì)于候選摘要的時(shí)序信息的遞推損失函數(shù)來(lái)保證整個(gè)候選集輸出的準(zhǔn)確性。

        對(duì)于某一句文本長(zhǎng)度為l的候選摘要C(c1,c2,…,cl),其中ci(0<i≤l)是模型中每一個(gè)詞元在全連接層輸出的詞典大小的對(duì)應(yīng)標(biāo)簽概率值,且對(duì)每一個(gè)候選摘要的詞元取得概率分?jǐn)?shù):

        2.1 對(duì)比損失函數(shù)

        在候選集中,取Rouge分?jǐn)?shù)較大的作為正樣本,較小的作為負(fù)樣本構(gòu)建對(duì)比損失,第i和j個(gè)摘要的概率分布中所對(duì)應(yīng)的候選標(biāo)簽概率分?jǐn)?shù)均表示為β(α1,α2,…,αl),于是兩句摘要的對(duì)比損失函數(shù)為[21]:

        式中:表示第j個(gè)候選摘要中所對(duì)應(yīng)的候選標(biāo)簽概率分?jǐn)?shù),λij=(j-i)*ε,ε為超參數(shù)。式(2)中僅僅考慮了每一個(gè)候選摘要的標(biāo)簽概率分?jǐn)?shù),但在原有的模型輸出中,并非所有的預(yù)測(cè)詞元概率分布和標(biāo)簽一致。預(yù)測(cè)的最大概率分?jǐn)?shù)和標(biāo)簽分布不一致的詞元,在對(duì)比損失函數(shù)中計(jì)算正負(fù)樣本的距離會(huì)有所偏差,因此以方法2的方式在模型預(yù)測(cè)的概率分?jǐn)?shù)上也加以約束,即對(duì)于候選集C,有γi=argmax(Ci),1≤i≤N,對(duì)于每一個(gè)候選摘要γ(α1,α2,…,αl)的概率分?jǐn)?shù)構(gòu)建損失函數(shù)為

        則取得整體候選集的對(duì)比損失函數(shù):

        其中,對(duì)于每一個(gè)摘要的概率評(píng)分函數(shù)有:

        式中:q是對(duì)摘要長(zhǎng)度進(jìn)行獎(jiǎng)懲的超參數(shù);|C|是摘要長(zhǎng)度。需要注意的是:在計(jì)算摘要間的對(duì)比損失時(shí),更在意的是候選摘要間的整體分?jǐn)?shù)關(guān)系,而沒(méi)有在意生成詞元的時(shí)序關(guān)系,并對(duì)每一個(gè)長(zhǎng)短不一的候選摘要都給予了固定的懲罰參數(shù)。

        2.2 詞元時(shí)序遞推函數(shù)

        在對(duì)候選摘要進(jìn)行細(xì)粒度控制的同時(shí),仍需要將原始參考摘要作為重點(diǎn),因此保留對(duì)于原始參考摘要的基于傳統(tǒng)極大似然估計(jì)的損失函數(shù)[22]:

        其中:

        式中:R(C)表示候選摘要的Rouge分?jǐn)?shù);η是固定的常數(shù)值,且0<η<1,BRIO中采用的損失函數(shù)為

        僅采用式(8)損失函數(shù)面對(duì)的問(wèn)題,在計(jì)算候選摘要間損失函數(shù)時(shí)以式(5)作為評(píng)分函數(shù),單個(gè)摘要的分?jǐn)?shù)僅為每個(gè)詞元的概率分?jǐn)?shù)之和,這樣的計(jì)算方式在句內(nèi)缺失時(shí)序信息的同時(shí),若相鄰或相近的候選摘要詞元差別過(guò)大,則會(huì)導(dǎo)致候選摘要之間的錯(cuò)誤引導(dǎo)而降低模型生成文本的準(zhǔn)確性。

        在N個(gè)已排序摘要中,以1號(hào)和2號(hào)候選摘要為例,有ROUGE(C1,Cref)>ROUGE(C2,Cref),希望的是在計(jì)算排序相近或相鄰摘要的對(duì)比損失時(shí),同時(shí)滿足和

        但h(C)函數(shù)并沒(méi)有計(jì)算各自候選摘要句內(nèi)的時(shí)序信息,在不同摘要間計(jì)算對(duì)比損失的同時(shí),可能會(huì)導(dǎo)致出現(xiàn)不同候選摘要間標(biāo)簽的錯(cuò)位引導(dǎo),尤其是當(dāng)C1和C2文本內(nèi)容差異較大時(shí)。

        為了解決此問(wèn)題,前文中所提到的方法3設(shè)計(jì)出應(yīng)用于每個(gè)候選摘要句內(nèi)的遞推關(guān)系式,使得每一時(shí)間步t的概率分?jǐn)?shù)都來(lái)自于前t-1時(shí)刻的所有概率分?jǐn)?shù)的遞推數(shù)值:

        式中:f(x)為單調(diào)函數(shù),且,同時(shí)為了保證t時(shí)刻的遞推數(shù)值[1,t-1]時(shí)間段的適度影響,應(yīng)滿足,保證f(x)在x>0時(shí)為單調(diào)遞增的凸函數(shù)。

        通過(guò)beamsearch和隨機(jī)采樣所生成的候選集文本長(zhǎng)度不一,并且在推理過(guò)程中時(shí)序遞推函數(shù)并不在意當(dāng)前詞元本身概率分?jǐn)?shù)的大小,因此在以mini-batch形式對(duì)整個(gè)摘要進(jìn)行時(shí)序遞推時(shí),不適合如式(5)那種直接加入長(zhǎng)度獎(jiǎng)懲的超參數(shù)q,而應(yīng)該在t時(shí)刻的預(yù)測(cè)正確的情況下,鼓勵(lì)后續(xù)時(shí)刻的正確的遞推數(shù)值。

        因此,在句子長(zhǎng)為l的摘要中,當(dāng)不加入長(zhǎng)度懲罰項(xiàng)時(shí)整體的遞推值,即對(duì)于f(x)滿足x >0時(shí),對(duì)于每一個(gè)時(shí)間步t,當(dāng)時(shí),會(huì)對(duì)每一個(gè)獨(dú)立摘要t+1時(shí)刻的詞元生成做出鼓勵(lì);當(dāng)時(shí),會(huì)對(duì)每一個(gè)獨(dú)立摘要t+1時(shí)刻的詞元生成做出懲罰。

        如圖4所示,有區(qū)域S={Ⅰ,Ⅱ,Ⅲ,Ⅳ,K},f1(x)和f2(x)表示不同遞推函數(shù),從圖像面積與時(shí)序t的關(guān)系來(lái)看,以的值來(lái)控制每一時(shí)刻的長(zhǎng)度獎(jiǎng)懲效果。

        圖4 候選集在時(shí)序遞推函數(shù)損失L lp對(duì)生成文本的長(zhǎng)度獎(jiǎng)懲變化示意圖

        例如,F(xiàn)(K∪Ⅲ∪Ⅳ,t2)表示無(wú)長(zhǎng)度獎(jiǎng)懲的遞推值;F(Ⅰ∪Ⅱ,t1)表示在當(dāng)前時(shí)刻會(huì)對(duì)下一時(shí)刻的詞元生成帶來(lái)獎(jiǎng)勵(lì)效果;F(K∪Ⅳ,t2)會(huì)對(duì)下一時(shí)刻的詞元生成帶來(lái)懲罰效果。

        在本次實(shí)驗(yàn)中,對(duì)于不同抽象程度的數(shù)據(jù)集應(yīng)用了2種不同的詞元損失函數(shù)形式,其中對(duì)于格式較為規(guī)整的數(shù)據(jù)集采用:

        對(duì)于文本內(nèi)容較為抽象的數(shù)據(jù)集則采用:

        算法1對(duì)候選集的正負(fù)樣本進(jìn)行循環(huán)計(jì)算。

        輸入:[原文檔D,候選集C(C1,C2…CN),候選集對(duì)應(yīng)標(biāo)簽在字典中的索引index,基礎(chǔ)模型g,超參數(shù)margin:ε]。

        輸出:對(duì)比損失與時(shí)序遞推函數(shù)數(shù)值。

        符號(hào)說(shuō)明:

        3 實(shí)驗(yàn)細(xì)節(jié)

        本次實(shí)驗(yàn)采用的顯卡為NVIDIA Tesla A40,且BART-LARGE與PEGASUS的預(yù)訓(xùn)練模型均來(lái)自transformers庫(kù)。

        3.1 數(shù)據(jù)集處理

        CNNDM和Xsum都是來(lái)自datasets庫(kù)的公共英文新聞數(shù)據(jù)集,且Xsum更偏向于抽象的文本極限壓縮摘要。

        通過(guò)BART-LARGE和PEGASUS模型分別對(duì)CNNDM 和Xsum 的訓(xùn)練集生成候選摘要,以beamwidth=16生成的候選集預(yù)存入文本中,數(shù)據(jù)集的數(shù)量如表2所示。

        表2 數(shù)據(jù)集詳細(xì)數(shù)量

        3.2 參數(shù)設(shè)置

        由于CNNDM和Xsum數(shù)據(jù)集及各自基礎(chǔ)模型的參數(shù)量不同,因此提供如表3中不同的參數(shù)來(lái)達(dá)到本次實(shí)驗(yàn)的效果。

        表3 實(shí)驗(yàn)中的各項(xiàng)參數(shù)設(shè)置

        3.3 實(shí)驗(yàn)結(jié)果

        將本文的訓(xùn)練方式Lctr+Lmle+Llp與BRIO的訓(xùn)練方式+Lmle進(jìn)行對(duì)比,并從 Rouge、BertScore、余弦相似度3個(gè)指標(biāo)進(jìn)行評(píng)估。

        3.3.1 Rouge分?jǐn)?shù)評(píng)估

        如表4所示,式(13)的訓(xùn)練方式在式(8)的基礎(chǔ)上有了明顯提升,同時(shí)為了更加體現(xiàn)出模型泛化性能的提升,如表5所示,本文通過(guò)不同的beam width在測(cè)試集上對(duì)生成的文本Rouge分?jǐn)?shù)進(jìn)行評(píng)估。

        表4 式(13)訓(xùn)練方式在不同模型與數(shù)據(jù)集上的Rouge分?jǐn)?shù)

        表5 式(13)訓(xùn)練的模型以不同beamwidth在測(cè)試集上的表現(xiàn)

        3.3.2 BertScore與余弦相似度

        Rouge分?jǐn)?shù)并不是評(píng)價(jià)文本生成質(zhì)量的唯一標(biāo)準(zhǔn),Rouge更在意的是生成的文本與參考文本n-gram的重合度,使用Rouge分?jǐn)?shù)評(píng)價(jià)生成文本質(zhì)量的同時(shí),引入BertScore[21]和余弦相似度來(lái)評(píng)估文本的語(yǔ)意分?jǐn)?shù)和文本相似度,文本余弦相似度的計(jì)算方法為

        式中:hyp表示訓(xùn)練后的模型生成的摘要;Cref表示參考摘要;l表示摘要長(zhǎng)度。

        如表6所示,體現(xiàn)本文提供的訓(xùn)練方法不僅僅是在意每一個(gè)詞元及其時(shí)序上的準(zhǔn)確性(COSSIM),還要能在提升泛化性的同時(shí),保證語(yǔ)意的完整性(BertScore)。

        表6 采用BertScore和余弦相似度(COSSIM)對(duì)生成文本進(jìn)行語(yǔ)意和文本相似度的評(píng)估

        針對(duì)式(13)和式(8)的訓(xùn)練方法,在圖5中給出生成文本與參考摘要之間的余弦相似度[22]和Rouge分?jǐn)?shù)之間的對(duì)比,COS表示文本余弦相似度,OURS表示以式(13)訓(xùn)練后的模型,對(duì)于模型生成的文本T有:當(dāng)ROUGE(TOURS<TBRIO)在y=x軸的上方時(shí),其TCOS值變化較為平緩,且部分COS(TOURS>TBRIO);當(dāng)ROUGE(TOURS>TBRIO)在y=x軸的下方時(shí),其TCOS值變化較為明顯,且有不少樣本跨越了1~2個(gè)虛線跨度。即本文的訓(xùn)練方式使得模型在提升泛化性的同時(shí)是按照標(biāo)簽詞元準(zhǔn)確性和標(biāo)簽的時(shí)序準(zhǔn)確性方向提升Rouge分?jǐn)?shù)的,且在抽象數(shù)據(jù)集中的摘要關(guān)鍵字提取效果更佳。式(8)和式(13)訓(xùn)練出的模型生成的文本各1 000條,橫軸和縱軸分別表示從式(13)和式(8)生成的文本Rouge和余弦相似度數(shù)值(數(shù)值范圍均∈(0,1))。

        圖5 Rouge和余弦相似度值示意圖

        3.4 損失函數(shù)變化分析

        本文的主要方法是構(gòu)建不同的對(duì)比損失函數(shù),通過(guò)對(duì)整個(gè)候選集的概率分布的約束提高模型的泛化性,因此在式(8)和式(13)的訓(xùn)練過(guò)程中,其損失函數(shù)的變化趨勢(shì)能夠反映出模型在訓(xùn)練前后泛化性上的差異。

        圖6是在CNNDM數(shù)據(jù)集采用Lctr+Lmle+Llp情況下訓(xùn)練過(guò)程的損失函數(shù)變化曲線,且訓(xùn)練的規(guī)模在1個(gè)epoch以內(nèi),由于該數(shù)據(jù)集的文本格式相對(duì)長(zhǎng)且規(guī)整,因此Llp采用式(11)的形式,可以看出相較于抽象的Xsum數(shù)據(jù)集,整體候選摘要的Llp損失函數(shù)有明顯下降的趨勢(shì)。

        圖6 CNNDM損失函數(shù)曲線

        圖7是Xsum采用Lctr+Lmle+Llp情況下訓(xùn)練損失函數(shù)變化曲線,訓(xùn)練規(guī)模在3個(gè)epoch以內(nèi),因?yàn)樵赬sum數(shù)據(jù)集中的文本具有較高的抽象程度,因此在選擇Llp損失函數(shù)的形式時(shí)選擇式(12)的形式。

        圖7 Xsum損失函數(shù)曲線

        在以式(13)的訓(xùn)練過(guò)程中,對(duì)比采用式(8)訓(xùn)練過(guò)程中參考摘要的Lmle損失,加入、Llp損失之后,參考摘要的Lmle損失在整個(gè)訓(xùn)練階段明顯增高,但整體候選集的Llp時(shí)序損失值下降,即降低模型在訓(xùn)練過(guò)程中對(duì)于參考摘要的依賴性,更在意整個(gè)候選集的時(shí)序準(zhǔn)確性,使得模型的泛化能力提升的同時(shí)保持與候選標(biāo)簽之間的相似度。

        如表7所示的是以本文訓(xùn)練方式的模型在部分測(cè)試集上所生成的摘要對(duì)比,可以看出,加入Llp進(jìn)行訓(xùn)練后,有效緩解了文本生成過(guò)程中曝光偏差問(wèn)題。

        表7 式(8)和式(13)訓(xùn)練的模型與BART-LARGE/PEGASUS在CNNDM和Xsum測(cè)試集上生成的文本效果對(duì)比

        4 結(jié)論

        提出了一種新穎的訓(xùn)練方法,基本思想是通過(guò)構(gòu)建候選集來(lái)擴(kuò)展神經(jīng)網(wǎng)絡(luò)輸出的詞元概率分布。針對(duì)每個(gè)候選摘要,計(jì)算其概率分?jǐn)?shù),充分利用整個(gè)候選集語(yǔ)義空間中的概率分布構(gòu)建摘要的正負(fù)樣本,并采用對(duì)比學(xué)習(xí)的方式,使模型在相似的語(yǔ)義空間中能夠更好地?cái)M合不同的文本序列,從而提高模型的泛化性能。同時(shí),本文中提出的時(shí)序遞推函數(shù)確保候選集在推理過(guò)程中每個(gè)時(shí)間步的預(yù)測(cè)準(zhǔn)確性。

        從Rouge、BertScore等多個(gè)評(píng)估角度進(jìn)行驗(yàn)證,證明了該方法在提升模型的泛化性能和準(zhǔn)確性方面的有效性,并在對(duì)摘要內(nèi)容和標(biāo)簽準(zhǔn)確度要求較高的應(yīng)用場(chǎng)景中有著積極作用。也為大模型時(shí)代的研究者提供了一種有效且可靠的模型訓(xùn)練方法。

        對(duì)于此課題后續(xù)的研究,可以選擇非Transformer結(jié)構(gòu)的模型(如GNN和文本卷積網(wǎng)絡(luò)等)作為基礎(chǔ)模型,采用本文中的方法進(jìn)行訓(xùn)練,并與結(jié)果進(jìn)行比較。此外,本文中對(duì)于候選集的生成方式相對(duì)單一,可以嘗試使用不同的模型(如T5、RoBERTa模型等)來(lái)生成候選摘要;候選集排序方式也可以不僅僅依賴于Rouge分?jǐn)?shù),還可以根據(jù)不同的應(yīng)用場(chǎng)景和數(shù)據(jù)集,嘗試設(shè)計(jì)不同形式的時(shí)序遞推函數(shù),控制整個(gè)候選集在推理過(guò)程中概率分?jǐn)?shù)的變化趨勢(shì)。

        猜你喜歡
        文本模型
        一半模型
        重要模型『一線三等角』
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        中文字幕日韩精品亚洲精品| 精品一区二区三区在线观看视频 | 成年女人免费v片| 久久综合国产乱子伦精品免费| 9999精品视频| 自拍视频在线观看成人| 日韩一区av二区三区| 国产尤物av尤物在线观看| 91精彩视频在线观看| 国产精品三级自产拍av| 日韩精品视频久久一区二区 | 亚洲蜜芽在线精品一区| 国产一区二区三免费视频| 午夜裸体性播放| 狠干狠爱无码区| 国产一区二区三区白浆在线观看| 国产精品三区四区亚洲av| 中文字幕久久久人妻无码| 超91精品手机国产在线| 黄色中文字幕视频网站| 日本xxxx色视频在线观看免费| 中国内射xxxx6981少妇| 99久久国产亚洲综合精品| 国产av麻豆精品第一页| 成人免费a级毛片无码片2022| 久久精品久久久久观看99水蜜桃 | 无码国产精品一区二区免费式芒果 | 亚洲自拍另类制服在线| 在线视频一区二区三区中文字幕| 在线视频国产91自拍| 久久精品免视看国产成人| 国产在线一区二区三区av| 天堂一区二区三区精品| 波多野结衣久久精品99e| 国产福利免费看| 国产精品三级国产精品高| 日本伊人精品一区二区三区 | 久久久伊人影院| 亚洲天堂av在线免费播放| 国产精品日本一区二区在线播放| 国产精品香蕉在线观看|