王 劍,張 瑩,2,余正濤,2,黃于欣,2
1(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500)
2(昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,昆明 650500)
自動(dòng)文本摘要技術(shù)是一種從海量文本中獲取重要信息的方法,可以有效緩解信息過(guò)載的問(wèn)題.當(dāng)前針對(duì)中、英等資源豐富語(yǔ)言的單語(yǔ)摘要研究已經(jīng)取得較好的性能,如Xu等人提出利用卷積自注意力編碼的自動(dòng)摘要模型,根據(jù)上下文的局部和全局特征,從不同角度和不同層面提取文本潛在信息,確保模型生成正確流暢的摘要,Wu等人針對(duì)事件摘要任務(wù)引入Bigram語(yǔ)言模型對(duì)提取關(guān)鍵詞進(jìn)行語(yǔ)義擴(kuò)展得到事件相關(guān)的摘要信息.
跨語(yǔ)言摘要是用目標(biāo)語(yǔ)言來(lái)展示源語(yǔ)言新聞的摘要信息,如利用漢語(yǔ)來(lái)摘要和展示越南語(yǔ)新聞中的重要信息可以幫助用戶快速獲取越南語(yǔ)新聞描述的主要內(nèi)容,對(duì)于促進(jìn)兩國(guó)交流具有重要意義.目前針對(duì)跨語(yǔ)言文本摘要的方法主要有兩種:借助機(jī)器翻譯的管道式方法和借助雙語(yǔ)對(duì)齊的端到端方法.基于機(jī)器翻譯的管道式方法的研究動(dòng)機(jī)是:將跨語(yǔ)言自動(dòng)摘要分為單語(yǔ)言摘要和機(jī)器翻譯兩個(gè)步驟,可以先翻譯再摘要或先摘要再翻譯兩種模式.Anton[1]等人通過(guò)機(jī)器翻譯系統(tǒng)將印地語(yǔ)原文檔翻譯成英語(yǔ),再利用一個(gè)基于英文的多文檔摘要和標(biāo)題生成的交互式系統(tǒng)實(shí)現(xiàn)跨語(yǔ)言摘要生成.Wan[2]等人先利用單語(yǔ)摘要方法生成源語(yǔ)言文本摘要,再利用機(jī)器翻譯生成目標(biāo)語(yǔ)言摘要.然而,雖然基于機(jī)器翻譯的跨語(yǔ)言摘要方法可以利用單語(yǔ)的摘要和機(jī)器翻譯模型,但它受到兩個(gè)獨(dú)立子任務(wù)的誤差累積的影響,前一步驟的誤差會(huì)影響后一步的性能,制約了摘要的質(zhì)量.為了避免誤差累計(jì)的影響,Duan[3]和Ayana等人[4]提出聯(lián)合優(yōu)化機(jī)器翻譯和摘要模型,實(shí)現(xiàn)了zero-shot的跨語(yǔ)言摘要.其核心思想是構(gòu)造翻譯到摘要或者摘要到翻譯的線性系統(tǒng),使用現(xiàn)有摘要數(shù)據(jù)集訓(xùn)練教師模型,為跨語(yǔ)言句子摘要模型提供監(jiān)督信號(hào),同時(shí)還利用目標(biāo)輸入句作為中間橋梁,利用兩個(gè)方向的注意力權(quán)重來(lái)指導(dǎo)摘要生成.
上述跨語(yǔ)言摘要方法的研究主要集中在中英等資源豐富語(yǔ)言的研究上,擁有大規(guī)模的公共數(shù)據(jù)集和平行語(yǔ)料可供使用,且翻譯技術(shù)相對(duì)成熟,翻譯質(zhì)量較高,因此基于機(jī)器翻譯的跨語(yǔ)言摘要可以取得較好的效果.但是針對(duì)漢越等資源稀缺語(yǔ)言缺乏高質(zhì)量的平行語(yǔ)料,翻譯效果并不理想,因此依賴機(jī)器翻譯來(lái)實(shí)現(xiàn)漢越跨語(yǔ)言摘要較為困難.近年來(lái),也有一些學(xué)者提出了基于雙語(yǔ)對(duì)齊的端到端方法生成跨語(yǔ)言摘要,其思想是借助雙語(yǔ)詞典和注意力機(jī)制來(lái)實(shí)現(xiàn)雙語(yǔ)語(yǔ)義空間軟對(duì)齊,然后基于序列到序列模型直接生成跨語(yǔ)言摘要.Zhu等人[5]首次提出直接利用Transformer框架來(lái)生成跨語(yǔ)言摘要.即直接輸入源語(yǔ)言原文解碼得到跨語(yǔ)言摘要,利用編碼器到解碼器的交叉注意力來(lái)實(shí)現(xiàn)兩種語(yǔ)言的對(duì)齊.另外該文也驗(yàn)證了基于多任務(wù)框架,在共享編碼器的基礎(chǔ)上,在解碼端引入單語(yǔ)摘要或者機(jī)器翻譯任務(wù)作為額外的約束可以有效的提升跨語(yǔ)言摘要的生成質(zhì)量.后續(xù)研究中,Zhu等人[6]進(jìn)一步改進(jìn)翻譯融入的方式,通過(guò)將神經(jīng)網(wǎng)絡(luò)模型與外部概率雙語(yǔ)詞典相結(jié)合來(lái)提高跨語(yǔ)言摘要性能,其具體過(guò)程是:將跨語(yǔ)言自動(dòng)摘要分解為3個(gè)步驟:聚焦(attend)、翻譯(translate)和歸納(summarize),具體實(shí)現(xiàn)過(guò)程為:首先通過(guò)注意力機(jī)制對(duì)原文包含的重要內(nèi)容詞進(jìn)行聚焦,并得到這些關(guān)鍵詞的翻譯候選,最后依據(jù)翻譯候選或者神經(jīng)概率分布生成摘要.雖然已有的基于雙語(yǔ)詞對(duì)齊的跨語(yǔ)言摘要方法在深度學(xué)習(xí)框架下取得了很好的性能,但是漢越屬于低資源語(yǔ)言,語(yǔ)料資源稀缺,僅依賴基于注意力機(jī)制的軟對(duì)齊方法來(lái)實(shí)現(xiàn)兩種語(yǔ)言的語(yǔ)義空間對(duì)齊難度較大.因此本文提出借助雙語(yǔ)詞典作為外部知識(shí),利用雙語(yǔ)詞向量對(duì)抗訓(xùn)練的方法將漢越雙語(yǔ)映射到同一語(yǔ)義空間實(shí)現(xiàn)更好的雙語(yǔ)對(duì)齊,并在此基礎(chǔ)上實(shí)現(xiàn)跨語(yǔ)言摘要生成.
基于以上思想,本文提出了一種基于詞對(duì)齊的半監(jiān)督對(duì)抗學(xué)習(xí)漢越跨語(yǔ)言摘要生成的方法,首先利用Bert編碼器分別對(duì)輸入的漢越文本進(jìn)行向量表征;然后基于漢越雙語(yǔ)詞典的半監(jiān)督對(duì)抗學(xué)習(xí)方法,實(shí)現(xiàn)雙語(yǔ)詞向量在同一語(yǔ)義空間對(duì)齊;最后基于注意力機(jī)制同時(shí)關(guān)注雙語(yǔ)上下文向量,解碼得到目標(biāo)語(yǔ)言摘要.
如圖1所示,本文基于編碼器和解碼器構(gòu)成的序列到序列框架(sequence-to-sequence,seq2seq)摘要[7]框架提出的一種跨語(yǔ)言摘要模型,并且在seq2seq模型的基礎(chǔ)上增加了一個(gè)漢越雙語(yǔ)詞級(jí)映射器以實(shí)現(xiàn)雙語(yǔ)在同一個(gè)語(yǔ)義空間對(duì)齊.其中,左右兩邊分別為越南語(yǔ)編碼器Vi_Bert[8]和中文Zh_Bert編碼器負(fù)責(zé)將輸入的漢越新聞文本進(jìn)行向量表征;mapping映射器由鑒別器Diss,Dist和生成器Gens,Gent構(gòu)成,其任務(wù)是將編碼器生成的向量映射到同一語(yǔ)義空間下對(duì)齊;解碼器負(fù)責(zé)對(duì)映射后的向量解碼得到跨語(yǔ)言摘要.以越南語(yǔ)為源語(yǔ)言,中文作為目標(biāo)語(yǔ)言的跨語(yǔ)言摘要任務(wù)為例,模型生成摘要的過(guò)程是:首先,我們使用編碼器獲取越南語(yǔ)和中文新聞文本的上下文表示;然后使用映射器將越南語(yǔ)向量映射到中文向量空間下,判別器和生成器共同作用得到生成器生成同一語(yǔ)義空間下的對(duì)齊向量;最后,中文解碼器對(duì)映射向量進(jìn)行解碼生成中文摘要.
圖1 基于詞對(duì)齊的半監(jiān)督對(duì)抗學(xué)習(xí)漢越跨語(yǔ)言摘要模型圖
svi=vi_Bert(xvi)
(1)
tzh=zh_Bert(xzh)
(2)
經(jīng)過(guò)Bert編碼器產(chǎn)生的文本詞向量分別為中文和越南語(yǔ)新聞的文本表征,需要實(shí)現(xiàn)兩種向量在同一語(yǔ)義空間下對(duì)齊,將其結(jié)果作為解碼端的輸入.為實(shí)現(xiàn)該目標(biāo),我們提出借助漢越雙語(yǔ)詞典的半監(jiān)督對(duì)抗學(xué)習(xí)的方法,其過(guò)程如下:
預(yù)訓(xùn)練階段,首先利用包含L=30000的{si,ti}i∈(1,2,…,L)漢越雙語(yǔ)種子詞典,訓(xùn)練映射矩陣W:
Ω=‖Ws-t‖2
(3)
其中,s為雙語(yǔ)詞典的源語(yǔ)言詞向量,t為對(duì)應(yīng)的目標(biāo)語(yǔ)言詞向量,Ω表示正則器,用于強(qiáng)制表達(dá)式兩邊的相等性.我們使用隨機(jī)梯度下降學(xué)習(xí)W,然后通過(guò)最小化經(jīng)過(guò)W轉(zhuǎn)換的源語(yǔ)言單詞si的向量表征與雙語(yǔ)詞典中的目標(biāo)語(yǔ)言ti之間的平方歐氏距離,來(lái)實(shí)現(xiàn)雙語(yǔ)詞向量在同一語(yǔ)義空間下的映射對(duì)齊.假設(shè)源語(yǔ)言為越南語(yǔ)s,目標(biāo)語(yǔ)言為中文t,則由越南語(yǔ)映射到中文的映射矩陣為Ws→t.同理可得中文映射到越南文的矩陣為Wt→s.
聯(lián)合訓(xùn)練階段,用Bert編碼器得到越南語(yǔ)和中文的詞向量svi和tzh來(lái)訓(xùn)練學(xué)習(xí)的映射矩W*:
(4)
(5)
最后,如圖2所示,將生成器生成的映射后的越南語(yǔ)向量和中文向量同時(shí)提交給判別器來(lái)預(yù)測(cè)每個(gè)單詞的來(lái)源.在這個(gè)過(guò)程中來(lái)優(yōu)化判別器Diss和Gens:
圖2 雙語(yǔ)詞向量對(duì)抗訓(xùn)練模型圖
(6)
判別器Dist和生成器Gent同理可得:
(7)
訓(xùn)練時(shí),生成器和判別器采取交替訓(xùn)練,即先訓(xùn)練Diss和Dist,然后訓(xùn)練Gens和Gent,不斷往復(fù).
解碼器部分,Masked Multi-head attention中的mask表示掩碼,它對(duì)某些值進(jìn)行掩蓋,使其在參數(shù)更新時(shí)不產(chǎn)生效果.這一部分的attention計(jì)算公式為:
(8)
其中,Q,K,V對(duì)應(yīng)的query,key,value均來(lái)自前一層decoder的輸出向量.
編碼器和解碼器通過(guò)交叉注意力連接.多頭注意力將模型分為多個(gè)頭,形成多個(gè)子空間,可以讓模型去關(guān)注不同方面的信息,最后再將各個(gè)方面的信息綜合起來(lái),有助于網(wǎng)絡(luò)捕捉到更豐富的特征/信息.多頭注意力通過(guò)點(diǎn)積注意力模塊實(shí)現(xiàn),encoder-decoder attention計(jì)算方式為:
multihead=contact(head1,head2,…,headi)Wo
(9)
(10)
(11)
除了注意力機(jī)制子層之外,解碼器的每一層都包含一個(gè)完全連接的前饋網(wǎng)絡(luò).前饋神經(jīng)網(wǎng)絡(luò)模塊由兩個(gè)線性變換組成,中間有一個(gè)ReLU激活函數(shù),其對(duì)應(yīng)計(jì)算公式為:
FFN(x)=max(w1x+b1,0)w2+b2
(12)
其中,x表示輸入序列,w1,w2,b1,b2是需要學(xué)習(xí)的參數(shù).
進(jìn)行單語(yǔ)訓(xùn)練時(shí),給定一對(duì)越南語(yǔ)文本摘要對(duì)(xvi,x′),實(shí)驗(yàn)過(guò)程中進(jìn)行最大對(duì)數(shù)似然率計(jì)算,其摘要損失值Lsumms和Lsummt計(jì)算公式為:
(13)
(14)
進(jìn)行跨語(yǔ)言摘要任務(wù)訓(xùn)練時(shí),假設(shè)給定一對(duì)越南語(yǔ)新聞文本和中文參考摘要對(duì)(xvi,y′).則其跨語(yǔ)言摘要的損失函數(shù)Lclss和Lclst計(jì)算公式為:
(15)
(16)
預(yù)訓(xùn)練階段:進(jìn)行單語(yǔ)摘要模型和映射器的預(yù)訓(xùn)練.首先使用一定數(shù)量的越南語(yǔ)和中文新聞?wù)Z料,分別進(jìn)行兩種語(yǔ)言的單語(yǔ)摘要模型訓(xùn)練.摘要生成模型均采用BertSum[10],經(jīng)過(guò)單語(yǔ)預(yù)訓(xùn)練得到的摘要模型,transformer解碼器會(huì)對(duì)兩種語(yǔ)言有一定的學(xué)習(xí)記憶,有利于對(duì)映射后的向量解碼.然后利用雙語(yǔ)詞典預(yù)訓(xùn)練得到兩個(gè)映射矩陣W.
表1 模型訓(xùn)練過(guò)程偽代碼
聯(lián)合訓(xùn)練階段:在預(yù)訓(xùn)練得到的摘要模型上進(jìn)行雙語(yǔ)映射和跨語(yǔ)言摘要任務(wù)的聯(lián)合訓(xùn)練.如表1所示模型聯(lián)合訓(xùn)練過(guò)程偽代碼.
首先我們獲取了Hu等人[11]從新浪微博中抽取的LCSTS數(shù)據(jù),該語(yǔ)料主要來(lái)自于新浪微博.每條語(yǔ)料均由兩部分內(nèi)容構(gòu)成:短文本內(nèi)容以及對(duì)應(yīng)的參考摘要.而越南語(yǔ)語(yǔ)料則通過(guò)將已獲取的LCSTS語(yǔ)料集借助谷歌翻譯工具來(lái)得到偽平行語(yǔ)料.其中訓(xùn)練集有20萬(wàn)對(duì)偽平行語(yǔ)料,測(cè)試集有1000對(duì)偽平行語(yǔ)料.另外,還借助了互聯(lián)網(wǎng)爬蟲(chóng)技術(shù)從中國(guó)新聞網(wǎng)、新華網(wǎng)、新浪新聞等國(guó)內(nèi)新聞網(wǎng)站,以及越南每日快訊、越南經(jīng)濟(jì)日?qǐng)?bào),越南通訊社等越南新聞網(wǎng)站收集新聞,收集的數(shù)據(jù)包含新聞標(biāo)題、正文詳情、發(fā)布時(shí)間等信息.獲得了2000篇越南語(yǔ)新聞以及對(duì)應(yīng)的10000篇中文可比語(yǔ)料.我們對(duì)越南文檔使用VnCorenlp(1)https://github.com/vncorenlp/VnCoreNLP進(jìn)行預(yù)處理[12],包括文檔切分、分詞等過(guò)程.對(duì)中文文檔使用結(jié)巴分詞進(jìn)行數(shù)據(jù)預(yù)處理,包括文檔切分、分詞、去停用詞等步驟.
雖然目前還沒(méi)有漢越雙語(yǔ)詞典可供使用,但是Facebook muse(2)https://github.com/facebookresearch/MUSE在進(jìn)行110種語(yǔ)言訓(xùn)練詞對(duì)抗模型時(shí)提供了約含76000個(gè)詞對(duì)的英越雙語(yǔ)詞典.目前針對(duì)中英翻譯的效果已經(jīng)十分成熟,于是我們選擇了將英越詞典中的英語(yǔ)詞表調(diào)用谷歌翻譯接口將其翻譯為中文.并對(duì)一詞多義和低頻詞進(jìn)行了去除處理,最終得到了3萬(wàn)對(duì)漢越種子詞典.
綜上所述,GDM雙胎妊娠屬于高危妊娠。加強(qiáng)GDM雙胎妊娠的管理,控制血糖,選擇合適的分娩方式,做到早發(fā)現(xiàn)、早應(yīng)對(duì),進(jìn)而改善圍產(chǎn)結(jié)局。
我們使用基于PyTorch的OpenNMT[13]框架,將Bert超參數(shù)與文獻(xiàn)[10]中的BERT-Base作相同設(shè)置.我們模型中編碼器是單語(yǔ)預(yù)訓(xùn)練的BertSum,解碼器是隨機(jī)初始化的6層Transformer.對(duì)于編碼器和解碼器,使用Adam優(yōu)化器[14],β1=0.9,β2=0.999,學(xué)習(xí)率設(shè)置為lr=2e-3.將batchsize設(shè)置為36,epoch大小設(shè)置為8,每3個(gè)steps進(jìn)行一次梯度累加,每1000步保存一次檢查點(diǎn),一共訓(xùn)練20000個(gè)steps.在驗(yàn)證階段對(duì)于每個(gè)驗(yàn)證步,實(shí)驗(yàn)數(shù)據(jù)迭代100次,并在測(cè)試集上報(bào)告平均結(jié)果.
本文采用摘要任務(wù)中廣泛使用的ROUGE[15]分值作為評(píng)估指標(biāo),其工具包已被DUC和TAC等國(guó)際會(huì)議作為摘要體系的標(biāo)準(zhǔn)評(píng)價(jià)工具,用于預(yù)測(cè)生成文本和標(biāo)準(zhǔn)文本之間的接近程度.具體地說(shuō),摘要質(zhì)量將依據(jù)模型預(yù)測(cè)生成的摘要與標(biāo)準(zhǔn)摘要的重疊單元進(jìn)行量化計(jì)算,公式如下:
(17)
其中n代表n-gram的長(zhǎng)度,countmatch(n-gram)是模型生成摘要和人工書(shū)寫的標(biāo)準(zhǔn)摘要中共同出現(xiàn)的n-gram的數(shù)量,公式旨在通過(guò)計(jì)算與參考摘要重疊的系統(tǒng)生成摘要中的n-gram的百分比來(lái)衡量系統(tǒng)生成摘要與參考摘要的匹配程度.本文將采用ROUGE評(píng)價(jià)指標(biāo)N元共現(xiàn)統(tǒng)計(jì)ROUGE-1,ROUGE-2以及句子中最長(zhǎng)公共子序列共現(xiàn)統(tǒng)計(jì)ROUGE-L,前者預(yù)定義n-gram的長(zhǎng)度,后者使用最長(zhǎng)公共子序列直接進(jìn)行匹配,因此它自動(dòng)包括最長(zhǎng)的順序共現(xiàn),在一定程度上反映了句子結(jié)構(gòu)信息.
3.4.1 不同摘要方法對(duì)比實(shí)驗(yàn)
為了驗(yàn)證提出的模型在跨語(yǔ)言摘要任務(wù)上的性能,本文列舉了不同模型在本文收集數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn),結(jié)果如表2所示.其中,Pipe_TS方法表示的是先進(jìn)行原文本翻譯,再進(jìn)行單語(yǔ)摘要任務(wù);Pipe_ST方法表示的是先進(jìn)行單語(yǔ)摘要,再將生成摘要翻譯為目標(biāo)語(yǔ)言的結(jié)果;NCLS[5]方法表示的是借助注意力機(jī)制實(shí)現(xiàn)雙語(yǔ)對(duì)齊實(shí)現(xiàn)跨語(yǔ)言摘要生成方法;XML_R是一種基于大規(guī)模數(shù)據(jù)的預(yù)訓(xùn)練方法[16],能夠?qū)⒉煌Z(yǔ)言映射在統(tǒng)一的語(yǔ)義空間.和Vi_BERT和ZH_BERT相似,XML_R表示利用XML_R模型作為嵌入層,即將Vi_BERT和Zh_BERT替換為XML_R.Ours為本文提出來(lái)的方法.從表2中可以看出,本文提出的基于詞對(duì)齊的半監(jiān)督對(duì)抗學(xué)習(xí)跨語(yǔ)言摘要生成模型在越南語(yǔ)到漢語(yǔ)的跨語(yǔ)言摘要生成上,能夠有效改善跨語(yǔ)言摘要生成性能,ROUGE值在對(duì)比實(shí)驗(yàn)方法的結(jié)果上都有接近兩個(gè)百分點(diǎn)的提升,但是在漢語(yǔ)到越南語(yǔ)的跨語(yǔ)言摘要生成效果上略遜于XLM.其可能原因如下:當(dāng)前基于小語(yǔ)種的翻譯技術(shù)尚未成熟,對(duì)較長(zhǎng)的文本進(jìn)行翻譯會(huì)造成信息損失,而在源語(yǔ)言上使用基于半監(jiān)督對(duì)抗學(xué)習(xí)得到的映射矩陣能夠在一定程度上保存文本信息,有助于獲取文本摘要的高階特征,這些特征可指導(dǎo)摘要生成中對(duì)原文中特定內(nèi)容的選擇.
表2 不同摘要生成方法對(duì)比實(shí)驗(yàn)結(jié)果
3.4.2 不同規(guī)模詞典的對(duì)比實(shí)驗(yàn)
表3 針對(duì)不同規(guī)模詞典的摘要實(shí)驗(yàn)結(jié)果
表4為不同實(shí)驗(yàn)設(shè)置下的消融實(shí)驗(yàn)結(jié)果.其中,No_vocab_CLS表示不使用雙語(yǔ)詞典進(jìn)行雙語(yǔ)對(duì)抗訓(xùn)練的摘要結(jié)果,No_pretrain_CLS表示不進(jìn)行模型預(yù)訓(xùn)練,直接進(jìn)行跨語(yǔ)言摘要聯(lián)合訓(xùn)練任務(wù).由表4可以看出,本文提出的基于詞對(duì)齊的半監(jiān)督對(duì)抗學(xué)習(xí)跨語(yǔ)言摘要生成方法效果明顯高于另外兩種方法.其可能原因是:無(wú)雙語(yǔ)詞典的對(duì)抗學(xué)習(xí)對(duì)抗時(shí)雙語(yǔ)對(duì)齊效果較差,影響摘要結(jié)果.模型不能很好地從小規(guī)模文本摘要數(shù)據(jù)集學(xué)習(xí)一些單詞和語(yǔ)法的含義,尤其是那些低頻詞,這可以通過(guò)預(yù)處理階段來(lái)緩解.
表4 消融實(shí)驗(yàn)結(jié)果
3.4.4 摘要案例分析
表5 管道翻譯方法和本文模型摘要結(jié)果案例
本文針對(duì)越南語(yǔ)這一低資源語(yǔ)種的跨語(yǔ)言摘要的任務(wù),通過(guò)利用雙語(yǔ)詞典來(lái)提高模型對(duì)兩種語(yǔ)言的學(xué)習(xí)能力,引入雙語(yǔ)詞向量進(jìn)行對(duì)抗學(xué)習(xí)來(lái)實(shí)現(xiàn)雙語(yǔ)在同一語(yǔ)義空間對(duì)齊.實(shí)驗(yàn)結(jié)果表明,這種方法能夠提升低資源的跨語(yǔ)言摘要效果.在未來(lái)的研究學(xué)習(xí)中,我們將繼續(xù)探索漢越雙語(yǔ)之間更好的對(duì)齊方法,結(jié)合多語(yǔ)言BERT以及多語(yǔ)言BART等模型來(lái)實(shí)現(xiàn)跨語(yǔ)言摘要任務(wù),提高跨語(yǔ)言摘要性能.