藍(lán)雯飛,周偉梟*,許智明,朱容波,羅一凡
(1 中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,武漢 430074;2 福州大學(xué) 機(jī)械工程及自動(dòng)化學(xué)院,福州 350108)
文本摘要是自然語言處理(NLP)的重要任務(wù),其主要目的[1]是從文檔中抽取或總結(jié)其中的重要信息、獲取摘要并用以概括和展示文檔的主要內(nèi)容或段落大意.
以摘要方式作為分類依據(jù),文摘技術(shù)主要分為抽取式摘要和生成式摘要.以摘要處理對象作為分類依據(jù),文摘技術(shù)主要分為單文檔摘要和多文檔摘要.
本文主要關(guān)注生成式摘要,此類方法通過重新組織給定文檔的重要信息并生成單詞序列獲得摘要,與人工撰寫摘要的方式相似.最新研究表明,由于輸入文檔與參考摘要之間不存在顯式對齊關(guān)系[2,3],導(dǎo)致出現(xiàn)以下問題:
(1)使用傳統(tǒng)帶注意力機(jī)制的序列到序列模型生成摘要時(shí),存在重復(fù)注意的缺陷,進(jìn)而出現(xiàn)重復(fù)生成相同單詞的問題;
(2)對齊問題導(dǎo)致文檔編碼信息包含噪聲,進(jìn)而出現(xiàn)生成的摘要存在語義不相關(guān)以及準(zhǔn)確性低等問題.
針對上述問題,部分研究人員通過過濾編碼器的輸出得到更好的文檔編碼信息.ZHOU等[2]提出了選擇編碼機(jī)制(Selective Encoding Mechanism, SEM),并將神經(jīng)生成式摘要(Neural Abstractive Summarization)任務(wù)拆分為3個(gè)步驟:編碼、選擇與過濾、解碼.LIN等[3]提出了全局編碼機(jī)制(Global Encoding Mechanism, GEM),GEM根據(jù)文檔上下文全局信息來過濾從編碼器到解碼器的信息流,并對文檔上下文的表示進(jìn)行細(xì)化,以提高單詞表示與全局上下文之間的聯(lián)系.
受文獻(xiàn)[2]、文獻(xiàn)[3]的啟發(fā),本文提出一種新的摘要模型更好地解決了上述問題,主要貢獻(xiàn)如下:
(1)提出混合過濾編碼網(wǎng)絡(luò)(Hybrid Filter Encoding Network, HFEN),并在HFEN中集成混合過濾編碼機(jī)制(Hybrid Filter Encoding Mechanism, HFEM)、注意力機(jī)制、指針生成器;
(2)提出兩種混合過濾編碼機(jī)制的混合方式:管道過濾編碼機(jī)制(Pipeline Filter Encoding Mechanism, PFEM)和特征融合過濾編碼機(jī)制(Feature Fusion Filter Encoding Mechanism, FFFEM);
(3)在FFFEM中添加特征融合層(Feature Fusion Layer),并使用兩種特征融合方式:級(jí)聯(lián)融合(Concatenation Fusion)、門控融合(Gated Fusion);
(4)在中文摘要數(shù)據(jù)集LCSTS測試集上的實(shí)驗(yàn)結(jié)果表明,HFEN相較于基線模型生成了更為準(zhǔn)確、重復(fù)單詞更少的摘要,ROUGE指標(biāo)有較大提升.
大量研究人員關(guān)注將Seq2Seq模型應(yīng)用于文摘任務(wù)的問題.RUSH[4]首次實(shí)現(xiàn)神經(jīng)生成式摘要,同時(shí)集成了注意力機(jī)制[5].在此基礎(chǔ)上,NALLAPATI[6]拓展了基于RNN的神經(jīng)生成式摘要.
為解決集外詞(Out of Vocabulary, OOV)問題,VINYALS[7]、GU[8]分別提出指針網(wǎng)絡(luò)(Pointer Network)、CopyNet.針對對齊偏差產(chǎn)生的重復(fù)生成問題,ZHOU、LIN分別提出選擇編碼機(jī)制SEM、全局編碼機(jī)制GEM[2-3].部分研究人員通過其他方式緩解重復(fù)生成問題,TU[9]引入覆蓋度機(jī)制(Coverage Mechanism),該機(jī)制回顧當(dāng)前時(shí)刻前的注意力機(jī)制從而避免重復(fù)注意相同的位置.SEE[10]集成文獻(xiàn)[6,8,9]提出帶覆蓋度機(jī)制的指針生成器網(wǎng)絡(luò)(Pointer Generator Network with Coverage Mechanism).本文提出的HFEN集成的指針生成器與之類似,區(qū)別在于HFEN沒有引入覆蓋度機(jī)制.
部分國內(nèi)研究人員同樣關(guān)注神經(jīng)中文生成式摘要的發(fā)展.HU[11]首次構(gòu)建了大型中文摘要數(shù)據(jù)集LCSTS,并給出了部分基準(zhǔn)模型的實(shí)驗(yàn)結(jié)果.
侯麗微等提出一種主題關(guān)鍵詞信息融合的中文生成式自動(dòng)摘要模型[12]. 吳仁守提出一種全局自匹配機(jī)制(Global Self-Matching Mechanism)的中文摘要生成方法GSM[13].
如圖1,HFEN總體架構(gòu)包含5個(gè)模塊:文檔編碼器(Document Encoder)、混合過濾編碼機(jī)制(HFEM)、注意力機(jī)制(Attention Mechanism)、解碼器(Decoder)、指針生成器(Pointer Generator).指針生成器的作用是讓生成的單詞選擇性來源于輸入文檔或詞匯表,一定程度上解決了集外詞問題和重復(fù)生成相同單詞的問題.
圖1 HFEN總體架構(gòu)Fig.1 The overall structure of HFEN
HFEN獲取摘要時(shí)遵循如下步驟:
(1)使用文檔編碼器獲取輸入序列(輸入文檔)在每一時(shí)刻的隱藏狀態(tài)(Hidden State);
(2)混合過濾編碼機(jī)制HFEM對編碼得到的隱藏狀態(tài)進(jìn)行過濾,并將過濾后得到的文檔編碼信息傳遞到注意力機(jī)制;
(3)解碼器在每一時(shí)刻通過注意力機(jī)制計(jì)算詞匯表概率分布Pvocab;
(4)指針生成器結(jié)合詞匯表概率分布Pvocab與注意力分布計(jì)算最終的詞匯表概率分布Pfinal,并獲取該時(shí)刻生成的單詞.
(1)
其中,t表示時(shí)刻,h為隱藏狀態(tài),c為細(xì)胞狀態(tài)(Cell State).
(2)
2.3.1 管道過濾編碼機(jī)制(PFEM)
如圖2所示,PFEM通過兩階段過濾的方式對SEM、GEM進(jìn)行混合,編碼器輸出的文檔編碼信息hBi-LSTM先通過第一階段SEM過濾獲得文檔二級(jí)編碼信息hSEM,再通過第二階段GEM過濾獲得文檔三級(jí)編碼信息hPFEM將其傳遞到注意力機(jī)制模塊.
圖2 PFEM架構(gòu)Fig.2 Pipeline filter encoding mechanism architecture
(3)
(4)
其中,Wh與Ws為可學(xué)習(xí)的參數(shù),σ為Sigmoid激活函數(shù).
文檔二級(jí)編碼信息hSEM計(jì)算公式如下:
(5)
其中⊙表示矩陣元素依次相乘.
(6)
其中,Wconv和b為可學(xué)習(xí)的參數(shù),ReLU為非線性激活函數(shù).
在卷積塊生成的新表示矩陣的基礎(chǔ)上,繼續(xù)對這些新表示矩陣實(shí)現(xiàn)自注意力機(jī)制(Self-Attention Mechanism)用于挖掘全局相關(guān)性,公式如下:
(7)
其中,Q和V表示卷積塊生成的新表示矩陣,K=WattV,Watt為可學(xué)習(xí)的參數(shù).
文檔三級(jí)編碼信息hPFEM計(jì)算公式為:
(8)
(9)
文檔三級(jí)編碼信息hPFEM為PFEM過濾得到的文檔編碼信息,該向量序列將會(huì)通過注意力機(jī)制模塊計(jì)算上下文向量(Context Vector).
2.3.2 特征融合過濾編碼機(jī)制(FFFEM)
如圖3所示,F(xiàn)FFEM通過特征融合的方式對SEM、GEM進(jìn)行混合,編碼器輸出的文檔編碼信息hBi-LSTM同時(shí)通過SEM、GEM進(jìn)行過濾獲得SEM文檔二級(jí)編碼信息hSEM、GEM文檔二級(jí)編碼信息hGEM,然后hSEM和hGEM通過特征融合層后得到文檔三級(jí)編碼信息hFFFEM并將其傳遞到注意力機(jī)制.
圖3 FFFEM架構(gòu)Fig.3 Feature fusion filter encoding mechanism architecture
SEM文檔二級(jí)編碼信息hSEM為:
hSEM=SEM(hBi-LSTM).
(10)
GEM文檔二級(jí)編碼信息hGEM為:
hGEM=GEM(hBi-LSTM).
(11)
本文在FFFEM中添加特征融合層,并使用兩種特征融合方式:級(jí)聯(lián)融合、門控融合.
級(jí)聯(lián)融合簡單地將hSEM、hGEM兩個(gè)向量序列連接起來:
(12)
門控融合首先使用hSEM、hGEM兩個(gè)向量序列計(jì)算融合門向量GFFFEM,然后通過門組合hSEM、hGEM兩個(gè)向量序列:
(13)
(14)
文檔三級(jí)編碼信息hFFFEM為FFFEM過濾得到的文檔編碼信息,與hPFEM相同,該向量序列將會(huì)通過注意力機(jī)制模塊計(jì)算上下文向量.
本文使用指針解碼器(Pointer Decoder)作為摘要生成器,由圖1中注意力機(jī)制、解碼器、指針生成器組成.圖4為指針解碼器的結(jié)構(gòu)圖.
圖4 指針解碼器Fig.4 Pointer decoder
在解碼時(shí)間步t,LSTM單元接收前一時(shí)刻預(yù)測輸出的單詞yt-1、前一時(shí)刻解碼器狀態(tài)st-1,得到t時(shí)刻解碼器狀態(tài)st.當(dāng)t=0時(shí),初始化解碼器狀態(tài)為:
(15)
其中,tanh為非線性激活函數(shù),Winit為可學(xué)習(xí)的參數(shù).
(16)
at=softmax(et).
(17)
(18)
經(jīng)過注意力機(jī)制計(jì)算得到的詞匯表概率分布Pvocab公式為:
Pvocab=softmax(Vlinear2(Vlinear1[st;ct]+blinear1)+blinear2),
(19)
其中,Vlinear1、Vlinear2、blinear1、blinear2為可學(xué)習(xí)的參數(shù).
指針生成器定義選擇開關(guān)pg控制生成的單詞來源,pg由st、yt-1、ct共同決定:
(20)
最終的詞匯表概率分布為:
(21)
HFEN訓(xùn)練期間,給定輸入序列與目標(biāo)序列,使用導(dǎo)師驅(qū)動(dòng)(Teacher Forcing)過程,通過最小化損失函數(shù)訓(xùn)練模型:
(22)
其中,θ*為HFEN各個(gè)模塊的參數(shù).
HFEN測試期間,解碼器在t=0時(shí)刻接收起始符“
LCSTS[11]源文檔收集自中國著名社交媒體網(wǎng)站新浪微博,參考摘要來自人工撰寫.本文遵循文獻(xiàn)[3]、文獻(xiàn)[11]、文獻(xiàn)[13]的數(shù)據(jù)預(yù)處理過程,對LCSTS原始數(shù)據(jù)集進(jìn)行拆分后得到訓(xùn)練數(shù)據(jù)2400591對、驗(yàn)證數(shù)據(jù)8685對、測試數(shù)據(jù)725對.
本文使用深度學(xué)習(xí)框架PyTorch實(shí)現(xiàn)3種新的摘要模型,各個(gè)模型基本架構(gòu)及組件(CF、GF分別表示使用級(jí)聯(lián)融合、門控融合)如表1所示.
表1 各個(gè)模型基本架構(gòu)及組件表Tab.1 Basic architecture and components table of each model
本文遵循文獻(xiàn)[3]、文獻(xiàn)[11]、文獻(xiàn)[13]在LCSTS上進(jìn)行實(shí)驗(yàn)時(shí)的參數(shù)設(shè)置,如表2所示.
表2 HFEN參數(shù)表Tab.2 HFEN parameters table
本文使用Adam優(yōu)化器對HFEN的參數(shù)進(jìn)行更新,Adam相關(guān)參數(shù)設(shè)定為:β1=0.9,β2=0.999,eps=1×10-8.所有訓(xùn)練文檔按字分割.表1中3種HFEN均在GeForce GTX TITAN×12GB顯存GPU上訓(xùn)練及測試.
ROUGE[14]是文本摘要領(lǐng)域的基準(zhǔn)評價(jià)指標(biāo),通過計(jì)算待測摘要與參考摘要的單詞重疊程度來判斷模型生成摘要的質(zhì)量,其中,ROUGE-N(包括ROUGE-1、ROUGE-2),ROUGE-L為重要指標(biāo).本文遵循文獻(xiàn)[3]、文獻(xiàn)[11]、文獻(xiàn)[13]在測評時(shí)的設(shè)置,將生成的待測摘要按字級(jí)別進(jìn)行切分.
本文使用files2rouge包測評所有基線模型與HFEN生成的待測摘要在95%置信區(qū)間的ROUGE標(biāo)準(zhǔn)F1評分.表3為在LCSTS測試集上的主要結(jié)果.
表3 各個(gè)模型在LCSTS測試集上的ROUGE F1評分Tab.3 The ROUGE F1 score of each model on the LCSTS test set
結(jié)果顯示,HFEN相較于其他基線模型均有較大的優(yōu)勢,其中,HFEN-FFFEM-GF達(dá)到了最佳的摘要性能,相較于GSM在ROUGE指標(biāo)上分別提升1.0、0.7、0.4,相較于GEM(our implement)在ROUGE指標(biāo)上分別提升1.9、2.6、2.0,證明了HFEN能夠生成更準(zhǔn)確、更能反映測試文檔中心思想的摘要.
本文對待測摘要的重復(fù)率進(jìn)行分析以驗(yàn)證HFEN生成的摘要中包含更少的重復(fù)單詞.為測評摘要重復(fù)率,定義如下評價(jià)指標(biāo):
(2)摘要層面重復(fù)率:
rep_summ_ratio=
其中,rep_wordsi為摘要summi中包含的重復(fù)單詞集合.表4為重復(fù)率測試結(jié)果.
表4 重復(fù)率測試結(jié)果Tab.4 Repeat rate test results
結(jié)果顯示,參考摘要在兩個(gè)重復(fù)率指標(biāo)上最低,因?yàn)槿祟愒谧珜懻獣r(shí)會(huì)刻意避免使用相同的單詞以便在摘要長度限制的情況下囊括更多的信息.HFEN在總體上相較于GEM重復(fù)率更低,其中,HFEN-FFFEM-GF生成的摘要重復(fù)率最低且與參考摘要的重復(fù)率最為接近,證明了引入FFFEM對降低重復(fù)率是有效的.
本文提出了一種混合過濾編碼網(wǎng)絡(luò)(HFEN),通過在HFEN中集成混合過濾編碼機(jī)制(HFEM)解決了對齊關(guān)系導(dǎo)致的重復(fù)生成相同單詞的問題以及生成的摘要與輸入文檔語義不相關(guān)、準(zhǔn)確性低的問題,實(shí)驗(yàn)結(jié)果證明了所提HFEN的有效性.