曾昭霖,嚴(yán) 馨,徐廣義,陳 瑋,鄧忠瑩
1(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500) 2(昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,昆明 650500) 3(云南南天電子信息產(chǎn)業(yè)股份有限公司,昆明 650040)
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,信息的傳播和交互速度的不斷加快,互聯(lián)網(wǎng)上的信息量呈指數(shù)級(jí)地增長,如何高效地從如此多的文本信息中自動(dòng)提取出其主要內(nèi)容,已成為當(dāng)今學(xué)術(shù)界自然語言處理領(lǐng)域中研究的一個(gè)熱點(diǎn)[1].自動(dòng)文本摘要技術(shù)是一種結(jié)合計(jì)算機(jī)技術(shù)與人類語言學(xué)知識(shí)的綜合性技術(shù)方法,它能有效地幫助人們高效地從大量文本中提取出關(guān)鍵內(nèi)容信息,提高信息的利用率、傳播率;還可以幫助用戶快速瀏覽和判斷出自己所感興趣的內(nèi)容信息,更加高效地從互聯(lián)網(wǎng)上獲得更多有效信息,有效降低用戶的信息負(fù)載[2].
自動(dòng)文本摘要技術(shù)主要可以分為:抽取式摘要(Extractive Summarization)和生成式摘要(Abstractive Summarization)兩大類;抽取式摘要是直接從原文中抽取語句來生成摘要,摘要句全部來自原文當(dāng)中;生成式摘要是在理解了全文內(nèi)容的基礎(chǔ)上,通過對文中句子縮寫、詞語同義替換、轉(zhuǎn)述等來生成概括性摘要.雖然生成式摘要更接近人寫摘要的過程,但抽取式文本摘要的實(shí)現(xiàn)技術(shù)相較簡單一些、易于在工業(yè)中落地,并且由于抽取式摘要是從源文檔中直接抽取句子生成摘要,還有一個(gè)很大的優(yōu)勢是能夠保證生成的摘要句在語法和事實(shí)上的準(zhǔn)確性,具有較大的研究價(jià)值[3].與一般的多文檔抽取式摘要不同,面向查詢的多文檔抽取式摘要旨在從根據(jù)用戶查詢語句返回的相關(guān)文檔集中,依據(jù)查詢信息以及文檔主旨,抽取出一份內(nèi)容凝練、與查詢相關(guān)、冗余性低的摘要;要求摘要結(jié)果不僅歸納了文檔主旨信息,還要能反映用戶的查詢信息需求,因此更加具有針對性,更適合當(dāng)前互聯(lián)網(wǎng)環(huán)境下用戶對信息獲取的個(gè)性化需求[4].
面向查詢的多文檔抽取式摘要所使用的方法大都與一般的抽取式自動(dòng)摘要方法類似,只是在研究方法中加入了查詢相關(guān)特征的適用性改進(jìn)[5].在自動(dòng)摘要技術(shù)研究的早期,大多是采用基于規(guī)則的方法,即簡單采用一些啟發(fā)式定義的函數(shù)或者特征的線性組合來評(píng)價(jià)文檔中句子的重要性[6];在此之后,Xiong等[7]利用層次Dirichlet 過程(HDP)主題模型來學(xué)習(xí)句子中的詞-主題概率分布,并通過超圖來獲取詞-主題概率分布與句子間成對相似度的聚類關(guān)系,最后通過頂點(diǎn)增強(qiáng)的超圖時(shí)變隨機(jī)游走算法對句子進(jìn)行排序;唐曉波等[8]運(yùn)用LDA主題模型進(jìn)行句子聚類與主題發(fā)現(xiàn),在主題下通過計(jì)算句子相似度來構(gòu)建圖模型,并利用TextRank算法來獲得圖模型中句節(jié)點(diǎn)的重要性,再結(jié)合句子基于統(tǒng)計(jì)特征的重要性來獲得摘要.近些年來,隨著深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的興起,越來越多的人開始轉(zhuǎn)向?qū)⑸疃葘W(xué)習(xí)神經(jīng)網(wǎng)絡(luò)應(yīng)用于自動(dòng)摘要領(lǐng)域中.Zhang等人[9]提出了一種潛在變量的抽取式摘要模型,把文檔中句子對應(yīng)的標(biāo)簽視為一個(gè)二元潛在變量,通過基于Encoder-Decoder結(jié)構(gòu)的句子壓縮模型,得到文中句子作為摘要句的條件概率,并結(jié)合強(qiáng)化學(xué)習(xí)算法進(jìn)行摘要模型的訓(xùn)練;Cao等人[10]提出名為AttSum的面向查詢的多文檔摘要模型,該模型通過注意力機(jī)制采用聯(lián)合學(xué)習(xí)的方法,同時(shí)建模處理了句子的文檔顯著性以及查詢相關(guān)性;Nallapati等人[11]提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)的SummaRuNNer模型,該模型從句子的重要性和新穎性等角度出發(fā),在計(jì)算候選摘要句的概率時(shí)考慮了之前所有時(shí)刻句子的摘要概率信息,能直觀地解釋文本摘要的生成過程;Zhong等人[12]不再遵循常用的單獨(dú)抽取句子和句子間關(guān)系建模的框架,而是將抽取文本摘要任務(wù)定義為一個(gè)在語義空間中的文本匹配問題,并試圖量化句子級(jí)與摘要級(jí)方法之間的內(nèi)在固有差距.
句子的查詢相關(guān)性排序及內(nèi)容顯著性排序是面向查詢的多文檔自動(dòng)摘要的兩個(gè)主要任務(wù),但目前大多數(shù)面向查詢的多文檔自動(dòng)摘要研究往往將這兩個(gè)任務(wù)分開執(zhí)行,最后把所有得分做一個(gè)線性相加,或通過設(shè)定的實(shí)驗(yàn)權(quán)重系數(shù)來將這兩個(gè)得分連接起來.但這樣會(huì)使得這兩個(gè)排序過程中的信息不能交互同時(shí)考慮,可能會(huì)導(dǎo)致最終的摘要結(jié)果不能很好地反映用戶查詢的需求.Cao在文獻(xiàn)[10]中提出的AttSum面向查詢的抽取式摘要模型,雖然在建模文檔特征表示時(shí)很好地將句子的內(nèi)容顯著性和查詢相關(guān)性通過注意力機(jī)制同時(shí)考慮了,解決了分開孤立計(jì)算的問題,但該模型是通過對詞向量表示進(jìn)行卷積、池化操作來獲得句子的向量表示,沒有充分考慮到文檔中句子之間的語義關(guān)系、句子的上下文信息及句子中詞之間的潛在關(guān)聯(lián),可能會(huì)導(dǎo)致之后的文檔向量表示的特征學(xué)習(xí)不充分;且在摘要句的選擇時(shí),僅依賴于句子向量表示與文檔向量表示的相似度值進(jìn)行摘要句抽取選擇,但該方法為純數(shù)據(jù)驅(qū)動(dòng)的隱式建模,缺乏對句子表面特征的顯式建模,然而在前人的研究[3]中已經(jīng)證實(shí)句子表面特征的顯式建模在抽取式摘要任務(wù)中也是具有重要價(jià)值意義的.
因此,本文提出了一種基于層級(jí)BiGRU+Attention的面向查詢的新聞多文檔抽取式摘要方法,相較于AttSum模型本文方法在編碼句子、文檔級(jí)向量表示時(shí)使用層級(jí)BiGRU+Attention神經(jīng)網(wǎng)絡(luò)模型進(jìn)行建模;并使用相較于BERT預(yù)訓(xùn)練模型[13]更加專注于中文特殊構(gòu)詞語法,在更豐富的訓(xùn)練語料中加入了包含短語、命名實(shí)體級(jí)語義單元遮蔽的基于知識(shí)增強(qiáng)的語義表示模型(ERNIE預(yù)訓(xùn)練語言模型)[14]將文本向量化;其中加入了相應(yīng)的注意力機(jī)制使得編碼得到的向量表示捕獲到文檔中潛在的語義關(guān)系、上下文信息;再利用句向量表示與文檔向量表示進(jìn)行相似度計(jì)算來獲得相應(yīng)的句子重要性得分;并在計(jì)算句子綜合特征權(quán)重得分時(shí)除了包含通過神經(jīng)網(wǎng)絡(luò)打分模型隱式建模得到的句子重要性得分外,還充分考慮了句子中包含的關(guān)鍵詞特征、句子的長度特征以及句子的時(shí)序權(quán)重系數(shù)等顯式建模的句子表面特征權(quán)重;最后再利用MMR算法來抽取摘要,從而更為準(zhǔn)確地抽取出與文檔主旨及查詢需求匹配度高同時(shí)也與已選摘要冗余信息較少的摘要句,提高最終摘要的質(zhì)量.本文中面向查詢的多文檔抽取式摘要方法的框架如圖1所示.
圖1 基于層級(jí)BiGRU+Attention的面向查詢的多文檔抽取式摘要方法框架圖Fig.1 Framework diagram of query-oriented multi-document extractive summarization method based on hierarchical BiGRU+Attention
該層級(jí)BiGRU+Attention神經(jīng)網(wǎng)絡(luò)句子重要性打分模型主要分為以下3部分:1)先將多個(gè)相關(guān)文檔視為一個(gè)整體文檔,對該文檔集合中的每個(gè)句子進(jìn)行詞級(jí)編碼表示,通過ERNIE預(yù)訓(xùn)練模型對文本進(jìn)行向量化,再送入到詞級(jí)編碼的BiGRU神經(jīng)網(wǎng)絡(luò)中,加以詞級(jí)注意力機(jī)制,得到多文檔集中的每個(gè)句子以及相應(yīng)查詢語句的句向量表示;2)是將獲得的句向量表示通過句子級(jí)編碼的BiGRU神經(jīng)網(wǎng)絡(luò)使其包含文檔的上下文語義信息,并將其與查詢語句做雙線性變換注意力計(jì)算[17]得到每個(gè)句子相應(yīng)的查詢相關(guān)性權(quán)重,再將獲得的句向量表示通過加權(quán)和計(jì)算得到該文檔向量表示;3)為句子重要性打分過程,是將文檔集中每個(gè)句子的向量表示與該文檔向量表示進(jìn)行相似度計(jì)算,得到每個(gè)句子的重要性得分,該得分同時(shí)包含了句子的文檔內(nèi)容顯著性以及查詢相關(guān)性信息;該神經(jīng)網(wǎng)絡(luò)模型同時(shí)建模處理了句子的文檔中心性和查詢相關(guān)性,并充分考慮了文檔語法結(jié)構(gòu).該部分的模型結(jié)構(gòu)圖如圖2所示.
圖2 層級(jí)BiGRU+Attention神經(jīng)網(wǎng)絡(luò)句子重要性打分模型結(jié)構(gòu)圖Fig.2 Hierarchical BiGRU+Attention neural network sentence importance scoring model structure diagram
將描述同一新聞事件主題的多個(gè)報(bào)道文檔視為一個(gè)包含所有L個(gè)句子的整體文檔D,D=(S1,S2,S3,…,Si,…,SL),Si為多文檔集合D中的第i個(gè)句子,其中每個(gè)句子由n個(gè)詞組成,D中任意一個(gè)句子可以表示為Si=(wi1,wi2,…,wit,…,win),wit表示第i個(gè)句子中的第t個(gè)詞.將句子中的每個(gè)詞通過ERNIE預(yù)訓(xùn)練語言模型獲得相應(yīng)的向量化表示,并送入詞級(jí)編碼的BiGRU神經(jīng)網(wǎng)絡(luò)中,加以詞級(jí)注意力機(jī)制,加權(quán)和得到文檔集中每個(gè)句子以及查詢語句的句向量表示;再將得到的句向量表示通過句子級(jí)編碼的BiGRU神經(jīng)網(wǎng)絡(luò),并將其與查詢語句做雙線性變換注意力機(jī)制計(jì)算,最后對其進(jìn)行加權(quán)和操作得到該文檔向量表示.
3.1.1 詞級(jí)BiGRU+Attention
(1)
(2)
(3)
式中:“;”表示拼接,該新的詞向量表示包含了以該詞為中心的該句的上下文信息.
(4)
(5)
(6)
式中,uw為在訓(xùn)練過程中隨機(jī)初始化并隨其他參數(shù)共同學(xué)習(xí)更新的參數(shù),bw為偏置項(xiàng),Ww為權(quán)重矩陣,均為可訓(xùn)練參數(shù);查詢語句的句向量表示Q也通過以上方法獲得.
3.1.2 句子級(jí)BiGRU+Attention
(7)
(8)
(9)
(10)
(11)
(12)
將文檔集中每個(gè)句子的句向量表示Si與該文檔向量表示d進(jìn)行相似度計(jì)算,獲得關(guān)于每個(gè)句子的重要性得分,該得分通過之前的建模同時(shí)包含了文檔中句子的文檔內(nèi)容顯著性以及查詢相關(guān)性.該相似度計(jì)算采用cosine余弦相似度計(jì)算:
(13)
依據(jù)文獻(xiàn)[18]中的說明,余弦相似度是目前比較好的、常用來衡量兩個(gè)向量表示之間相似度的方法,與歐式距離相比它可以對不同范圍的數(shù)值進(jìn)行自動(dòng)縮放.文檔向量表示d通過雙線性變換注意力機(jī)制,使其在本身具有反映文檔深層主旨信息這一特性的基礎(chǔ)上,并融入了句子的查詢相關(guān)性信息;使得該相似度值Scoresq(Si),即句子的重要性得分,同時(shí)建模包含了句子的文檔內(nèi)容顯著性以及查詢相關(guān)性特征得分.
本文中的層級(jí)BiGRU+Attention神經(jīng)網(wǎng)絡(luò)句子重要性打分模型采用與Cao等人[10]提出的抽取式摘要模型AttSum相似的模型訓(xùn)練方式;在模型的訓(xùn)練過程中,采用結(jié)對排序(pairwiserankingstrategy)策略[19]來調(diào)整神經(jīng)網(wǎng)絡(luò)模型的參數(shù).具體來說,先計(jì)算出訓(xùn)練集中的所有句子基于ROUGE-2指標(biāo)的得分,其中獲得較高ROUGE-2分?jǐn)?shù)的句子被視為是正樣本,其余的被視為負(fù)樣本.然后,隨機(jī)選擇一對正、負(fù)樣本句子,并分別將它們表示為Spos和Sneg.通過上面的層級(jí)BiGRU+Attention神經(jīng)網(wǎng)絡(luò)編碼,可以獲得正樣本句子的句向量表示S+、負(fù)樣本句子的句向量表示S-,以及文檔向量表示d.從而可以依據(jù)句子重要性打分公式(13)計(jì)算出Spos和Sneg的重要性排序分?jǐn)?shù);根據(jù)結(jié)對排序策略的標(biāo)準(zhǔn),層級(jí)BiGRU+Attention神經(jīng)網(wǎng)絡(luò)重要性打分模型應(yīng)該給與正樣本句子Spos相對于負(fù)樣本句子Sneg更高的重要性得分.基于結(jié)對排序策略的損失函數(shù)的定義如式(14)所示:
Loss(d,S+,S-)=max(0,Ω-cos(d,S+)+cos(d,S-))
(14)
式中:Ω為一個(gè)邊緣閾值,用來控制正樣本句子和負(fù)樣本句子之間的分?jǐn)?shù)差距.利用該損失函數(shù),可以使用梯度下降算法來訓(xùn)練更新神經(jīng)網(wǎng)絡(luò)模型中的參數(shù).
雖然層級(jí)BiGRU+Attention神經(jīng)網(wǎng)絡(luò)句子重要性打分模型能有效地同時(shí)對句子的內(nèi)容顯著性及查詢相關(guān)性進(jìn)行處理,但其為基于數(shù)據(jù)驅(qū)動(dòng)的隱式建模,并不能完全替代一些在抽取式摘要任務(wù)中具有一定重要作用的句子表面特征,例如句子中包含的關(guān)鍵詞特征、句子的長度特征等顯式建模的表面特征.因此,在本文中將其與通過神經(jīng)網(wǎng)絡(luò)隱式建模的句子重要性相結(jié)合考慮,來獲得句子綜合特征權(quán)重得分,進(jìn)行摘要句的抽取選擇.
4.1.1 句子中包含的關(guān)鍵詞特征權(quán)重
高亮的關(guān)鍵詞通常是能高度概括文章主旨的關(guān)鍵性詞語,也是文章中主旨內(nèi)容相關(guān)描述的重要組成成分;因此一個(gè)句子中包含的文檔關(guān)鍵詞越多,該句在文檔當(dāng)中就相對來說更加重要,尤其對新聞文本來說.文檔中關(guān)鍵詞的識(shí)別及權(quán)重計(jì)算通過常用的TF-IDF(詞頻-逆文檔頻率)算法來計(jì)算得出:
(15)
式中,Wi,j表示文中詞語wi的TF-IDF得分,tfi,j表示詞語wi在當(dāng)前文本dj中出現(xiàn)的頻率,N表示文檔集中的總文檔數(shù),ηj為包含詞語wj的文檔數(shù),+1是為防止出現(xiàn)分母為0的情況.
1http://icrc.hitsz.edu.cn/Article/show/139.html
2https://github.com/wonderfulsuccess/chinese_abstractive_corpus
3http://tcci.ccf.org.cn/conference/2017/taskdata.phphttp://tcci.ccf.org.cn/conference/2015/pages/page05_evadata.html
越是能反映文檔主題信息的關(guān)鍵性詞語,其TF-IDF得分越高;通過將句子中包含的所有詞語的TF-IDF得分相加,來獲得句子包含關(guān)鍵詞的特征權(quán)重時(shí),為了避免長句子中所包含的詞過多,從而導(dǎo)致句子間基于關(guān)鍵詞特征權(quán)重得分的差距過大的情況;本文在計(jì)算得到句子Si所包含的關(guān)鍵詞的總得分基礎(chǔ)上,再除以該句子的長度,即該句詞語數(shù);計(jì)算方法如式(16)所示:
(16)
其中,Wif-idf(Si)為句子Si所包含關(guān)鍵詞的特征得分;LSi為句子Si的長度,也即該句中所包含的詞語總數(shù).
4.1.2 句子的長度特征權(quán)重
句子的長度特征在許多自動(dòng)文本摘要的研究中也是一個(gè)經(jīng)??紤]的因素,摘要句的選擇大多是長度適中的句子,過短的句子由于其包含的文本信息較少,通常沒有太大的實(shí)際意義;過長的句子雖然包含了許多文本信息,但內(nèi)容過于繁雜,被選為摘要句的可能性較低.句子Si關(guān)于句子本身長度LSi與文檔集中平均句子長度Lmid(Si)比較的長度特征權(quán)重得分,計(jì)算方法見式(17):
(17)
綜合這兩個(gè)顯式建模的句子表面特征權(quán)重得分,以及前面通過神經(jīng)網(wǎng)絡(luò)隱式建模獲得的句子重要性得分,通過設(shè)置相應(yīng)的權(quán)重系數(shù)進(jìn)行組合,得到句子Si的綜合特征權(quán)重得分:
Wgroup(Si)=α×Scoresq(Si)+β×Wtf-idf(Si)+
γ×Wlen(Si)
(18)
其中,α,β,γ為句子Si的各項(xiàng)特征權(quán)重在句子綜合特征權(quán)重得分Wgroup(Si)中的占比大小,且占比之和必須為1;本文中各項(xiàng)特征權(quán)重占比的設(shè)定經(jīng)過綜合考慮和分析各特征因素,將其分別設(shè)置為α=0.5,β=0.25,γ=0.25.
4.1.3 句子的時(shí)序權(quán)重系數(shù)
對于新聞報(bào)道來說,一個(gè)很重要的特性就是報(bào)道文章的時(shí)效性,新聞媒體是緊跟著新聞事件的發(fā)展進(jìn)程進(jìn)行跟蹤報(bào)道,較新的報(bào)道內(nèi)容通常會(huì)在之前報(bào)道內(nèi)容的基礎(chǔ)上又引入新的事件進(jìn)展和社會(huì)輿論聚焦點(diǎn);且對于查詢用戶來說,新聞事件的新進(jìn)展也是他們較為關(guān)心的一點(diǎn),更符合用戶的信息需求.因此,在對新聞文檔進(jìn)行摘要句抽取時(shí),除了綜合考慮以上的各句子特征外,還需要進(jìn)一步考慮句子的時(shí)間權(quán)重.
本文的新聞多文檔摘要數(shù)據(jù)集中每個(gè)新聞事件主題下的多篇新聞報(bào)道,是按照新聞媒體報(bào)道文章的發(fā)表時(shí)間的先后順序倒序排序放置并進(jìn)行編號(hào)的,越是近期發(fā)表的新聞報(bào)道,文檔編號(hào)越?。换诖?,加入句子時(shí)序權(quán)重系數(shù)的句子綜合特征權(quán)重得分計(jì)算方法如式(19)所示:
(19)
多文檔摘要任務(wù)是需要概括在同一主題下的多篇相關(guān)文檔的主旨內(nèi)容來生成摘要,其摘要句來源于多個(gè)文檔,因此本文在進(jìn)行摘要句抽取選擇時(shí),除了考慮候選摘要句包含句子時(shí)序權(quán)重的綜合特征權(quán)重得分以外,還需考慮候選摘要句與已選摘要句之間的信息冗余度問題.
(20)
(21)
(22)
2)關(guān)于本文中的摘要句抽取選擇過程算法的流程描述,如表1所示.
當(dāng)前,還沒有適合本課題研究方向的公開的中文新聞多文檔抽取式摘要語料,國內(nèi)常見的中文文本摘要公開數(shù)據(jù)集有哈工大提供的LCSTS1、教育行業(yè)新聞自動(dòng)摘要數(shù)據(jù)集2以及由NLPCC會(huì)議提供的NLPCC-2015、2017數(shù)據(jù)集3等,但都是基于單文檔的一般新聞?wù)獢?shù)據(jù)集,并不適用于面向查詢的多文檔抽取式摘要方法的訓(xùn)練和測試.因此需要利用爬蟲技術(shù),以新聞事件查詢語句為查詢線索從各大新聞網(wǎng)站(如新浪新聞、澎湃新聞、新華網(wǎng)、中國新聞網(wǎng)等)上抓取相關(guān)新聞事件的報(bào)道數(shù)據(jù),再對抓取下來的數(shù)據(jù)進(jìn)行預(yù)處理,并對每個(gè)新聞事件主題下的多篇新聞報(bào)道按照新聞媒體報(bào)道文章的發(fā)表時(shí)間的先后順序倒序排序放置并進(jìn)行文檔編號(hào),越是近期的報(bào)道其編號(hào)越??;以構(gòu)建出本文所需要的面向查詢的中文新聞多文檔抽取式摘要語料.
表1 基于MMR算法的摘要句抽取算法Table 1 Summary sentence extraction algorithm based on MMR algorithm
該語料包含780個(gè)國內(nèi)發(fā)生的各類新聞事件(Title),涉及娛樂、財(cái)經(jīng)、教育、科技、社會(huì)等各方面,其中每個(gè)新聞事件文檔集合中包含16篇左右來自各大新聞媒體的中文新聞報(bào)道文檔(Content),且都含有相應(yīng)的人工撰寫的查詢語句(Query)以及標(biāo)準(zhǔn)參考摘要(Reference Summary),參考摘要為2名相關(guān)研究人員先各自進(jìn)行獨(dú)立人工摘要抽取,再交叉綜合2人的摘要結(jié)果共同討論,在每個(gè)事件主題下抽取出300字左右的原文本作為標(biāo)準(zhǔn)參考摘要,避免因個(gè)人主觀臆斷可能帶來的結(jié)果偏差;在層級(jí)BiGRU+Attention神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練中按照9∶1的比例將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,在實(shí)驗(yàn)中采用10折交叉驗(yàn)證法.
5.2.1 實(shí)驗(yàn)參數(shù)設(shè)置
本文中通過ERNIE預(yù)訓(xùn)練語言模型獲得的向量化表示的維度為768維,并在模型訓(xùn)練過程中對ERNIE進(jìn)行微調(diào);詞級(jí)、句子級(jí)GRU隱藏單元數(shù)設(shè)置為256,層數(shù)為2,詞級(jí)上下文向量uw維度設(shè)置為512維;為了防止網(wǎng)絡(luò)過擬合,dropout概率設(shè)置為0.5;批次大小設(shè)置為16,訓(xùn)練迭代輪次為20;使用Adam作為模型優(yōu)化器;結(jié)對排序中的邊緣閾值在本文中設(shè)置為0.5,初始學(xué)習(xí)率設(shè)置為1e-5;句子MMR算法得分計(jì)算中的調(diào)節(jié)因子λ參數(shù)值,根據(jù)實(shí)驗(yàn)結(jié)果表明,本文中設(shè)置為0.7時(shí)效果較好.
5.2.2 評(píng)價(jià)指標(biāo)
本文使用的是Chin-Yew Lin提出的一種內(nèi)部評(píng)價(jià)方法ROUGE指標(biāo)[16],是目前自動(dòng)文本摘要任務(wù)中常用的一種評(píng)價(jià)指標(biāo),其評(píng)價(jià)原理是通過計(jì)算生成的摘要與人工參考摘要重疊的基本單元(n元語法、詞序列和詞對)的召回率來衡量生成摘要質(zhì)量,值越大表明抽取出來的摘要質(zhì)量越高.本文采用ROUGE-1、ROUGE-2、ROUGE-L作為評(píng)測指標(biāo),其中ROUGE-L是基于匹配到的最長公共子序列的重疊率,ROUGE-N計(jì)算公式為:
(23)
其中,N表示N-gram(n元語法)的長度,分子中的Countmatch(n-gram)表示抽取出來的摘要與參考摘要匹配到的共現(xiàn)N-gram個(gè)數(shù),分母中的Count(n-gram)表示標(biāo)準(zhǔn)參考摘要中的N-gram個(gè)數(shù).
本文使用上述評(píng)價(jià)指標(biāo)作為摘要實(shí)驗(yàn)結(jié)果的評(píng)測指標(biāo),從以下幾方面分析設(shè)計(jì)了下面3個(gè)對比實(shí)驗(yàn):
實(shí)驗(yàn)1.調(diào)節(jié)因子參數(shù)取值的選擇.調(diào)節(jié)因子λ,用于控制候選摘要句的句子綜合特征權(quán)重重要度以及與已選摘要句之間信息冗余度,在句子最終MMR得分中的占比權(quán)衡;λ∈[0,1],當(dāng)λ為0或1時(shí),句子最終MMR得分為僅考慮候選摘要句的句子綜合特征權(quán)重或句間冗余程度,沒有全面統(tǒng)一地進(jìn)行考慮.因此對本文MMR算法中的調(diào)節(jié)因子值,設(shè)置以0.1的步長在數(shù)值0.1~0.9之間設(shè)計(jì)對比實(shí)驗(yàn)、分析,實(shí)驗(yàn)結(jié)果如表2所示.
表2 調(diào)節(jié)因子不同取值的實(shí)驗(yàn)結(jié)果對比(%)Table 2 Comparison of experimental results with different values of the regulatory factor λ(%)
從實(shí)驗(yàn)結(jié)果可以看出,隨著取值的逐漸增加,ROUGE-1、ROUGE-2、ROUGE-L值隨之先增加后減小,當(dāng)=0.7時(shí)達(dá)到最高值,因此選擇0.7作為本文MMR算法中調(diào)節(jié)因子參數(shù)的選取值.在取值較小時(shí),句子的MMR算法得分偏向于控制句子的冗余度,會(huì)使得一些包含重要內(nèi)容信息但不能滿足冗余約束的句子被排除;在λ值較大時(shí),句子的MMR算法得分側(cè)重于選擇綜合特征權(quán)重得分較高的句子.當(dāng)取值超過0.7時(shí),各項(xiàng)ROUGE評(píng)估值出現(xiàn)整體下降,一個(gè)很可能的原因就是對冗余度控制過小,過度關(guān)注于候選摘要句自身的重要性,而忽視與已選摘要句之間信息的冗余,導(dǎo)致摘要句之間的重要內(nèi)容信息重復(fù)描述、句子差異性較低,使得摘要質(zhì)量下降.
實(shí)驗(yàn)2.不同句子表面特征組合的消融實(shí)驗(yàn).為了驗(yàn)證在句子最終重要性得分中加入句子中包含的關(guān)鍵詞特征、句子的長度特征以及句子的時(shí)序權(quán)重系數(shù)等顯式建模的句子表面特征,對抽取出來的摘要質(zhì)量的影響程度;本文設(shè)計(jì)了幾種不同的句子表面特征組合方式在相同調(diào)節(jié)因子λ參數(shù)值下進(jìn)行實(shí)驗(yàn)對比,其中包括:
HBGRU+Att:僅通過層級(jí)BiGRU+Attention神經(jīng)網(wǎng)絡(luò)句子重要性打分模型,不加任何句子表面特征,獲得的句子重要性得分直接應(yīng)用于MMR算法中,來抽取摘要句;
4https://github.com/google-research/bert
5https://github.com/PaddlePaddle/ERNIE
HBGRU+Att+TF-IDF:使用層級(jí)BiGRU+Attention神經(jīng)網(wǎng)絡(luò)句子重要性打分模型獲得的句子重要性再加上句子中包含的關(guān)鍵詞特征權(quán)重的得分,作為MMR算法中句子綜合特征權(quán)重得分;
HBGRU+Att+TF-IDF+LS:使用層級(jí)BiGRU+Attention神經(jīng)網(wǎng)絡(luò)句子重要性打分模型獲得的句子重要性,加上句子中包含的關(guān)鍵詞特征權(quán)重的得分、句子的長度特征的得分;
HBGRU+Att+AllFea:本文所提出的多文檔抽取式摘要方法;
實(shí)驗(yàn)結(jié)果如表3所示.
從表3的對比實(shí)驗(yàn)結(jié)果可以看出,在層級(jí)BiGRU+Attention神經(jīng)網(wǎng)絡(luò)重要性打分模型隱式建模的基礎(chǔ)上,再加上這些顯式建模的句子表面特征,能使得抽取出來的摘要質(zhì)量獲得一定的提升,這些手工表面特征在新聞?wù)蝿?wù)中被研究者們廣泛使用、且認(rèn)為是十分有效的[23].從實(shí)驗(yàn)結(jié)果中還可以看出,在考慮了句子中包含的關(guān)鍵詞特征后,再加入句子的長度特征,對摘要效果的提升相對并不明顯,因?yàn)閮烧叨际轻槍渥幽硞€(gè)方面的顯式表面特征進(jìn)行考慮的,只是側(cè)重點(diǎn)不一樣而已,其作用效果可能會(huì)有一定的重疊;但再加入句子的時(shí)序特征后能帶來相對較好的提升,因?yàn)檫@是針對新聞報(bào)道所特有的時(shí)效性而設(shè)計(jì)考慮的特征.
實(shí)驗(yàn)3.為了驗(yàn)證本文方法的有效性,將本文的方法與幾種無監(jiān)督的多文檔抽取式摘要方法進(jìn)行實(shí)驗(yàn)對比,對比方法有:
LEAD3[21]是一種直接抽取文章的前3句作為摘要結(jié)果的方法,常被用作為抽取式摘要的對比實(shí)驗(yàn)方法.通常大多數(shù)新聞文章都遵循總分總或是總分的邏輯框架結(jié)構(gòu),文章主旨信息的概述經(jīng)常出現(xiàn)在文章的開頭部分.
QUERY_SIM[10]是直接根據(jù)句子與查詢語句基于TF-IDF特征的余弦相似度值來對句子進(jìn)行排序選擇的方法.
MultiMR[22]是一種基于圖的多模態(tài)流形排序方法,該方法統(tǒng)一使用文檔內(nèi)部和跨文檔句子之間的關(guān)系,以及句子與查詢之間的關(guān)系來獲得關(guān)于句子的綜合排序得分.
ISOLATION[10]是一種分開單獨(dú)計(jì)算句子內(nèi)容顯著性及查詢相關(guān)性的摘要方法;該方法分別通過計(jì)算句子與文檔向量表示的余弦相似度,以及句子與查詢之間的TF-IDF余弦相似度值,以作為句子排序的內(nèi)容顯著性和查詢相關(guān)性得分.
AttSum[10]是Cao等人提出的一種利用注意力機(jī)制來聯(lián)合學(xué)習(xí)句子的內(nèi)容顯著性與查詢相關(guān)性的多文檔抽取式摘要方法,該方法通過神經(jīng)網(wǎng)絡(luò)模型建模了句子、文檔的向量化表示,并采用一種簡單的貪婪算法來選擇摘要句.
BERT+HBGRU+Att+AllFea:使用Google提供的BERT-Base-Chinese中文預(yù)訓(xùn)練語言模型4,替換本文中的ERNIE1.0 Base中文預(yù)訓(xùn)練語言模型5,將文本向量化,并在訓(xùn)練過程中進(jìn)行微調(diào).
ERNIE+HBGRU+Att+AllFea:本文所提出的多文檔抽取式摘要方法.
實(shí)驗(yàn)結(jié)果如表4所示.
進(jìn)一步,為了更加直觀地體現(xiàn)對比實(shí)驗(yàn)結(jié)果的效果提升,關(guān)于不同摘要方法對比實(shí)驗(yàn)結(jié)果的折線圖如圖3所示.
圖3 本文方法與其他方法的對比實(shí)驗(yàn)結(jié)果折線圖Fig.3 Line chart of the experimental results of the comparison between the method in this paper and other methods
由表4及圖3的實(shí)驗(yàn)結(jié)果可以看出,本文的方法相較于LEAD3、QUERY_SIM、MultiMR以及ISOLATION這些常見的抽取式摘要方法,在摘要結(jié)果的各項(xiàng)ROUGE評(píng)價(jià)指標(biāo)上都有較明顯的提升,原因是本文的方法通過層級(jí)BiGRU+Attention神經(jīng)網(wǎng)絡(luò)模型建模了具有豐富上下文信息的句子、文檔向量表示;并同時(shí)考慮處理了句子內(nèi)容顯著性與查詢相關(guān)性,模仿人帶著問題去閱讀的行為習(xí)慣,解決了將其孤立考慮可能會(huì)導(dǎo)致的最終摘要結(jié)果質(zhì)量不佳的問題.且將本文方法與AttSum方法相比較也有一定的效果提升,除了上述原因外,另一個(gè)重要的因素就是在計(jì)算句子的最終MMR得分中加入了文中的幾種顯式建模的句子表面特征,這在新聞?wù)I(lǐng)域中被認(rèn)為是十分有效的;此外還可以看出,本文中使用相較于BERT預(yù)訓(xùn)練模型在更豐富的預(yù)訓(xùn)練語料中加入了包含短語、命名實(shí)體級(jí)遮蔽的ERNIE預(yù)訓(xùn)練模型將文本向量化,包含了對實(shí)體概念知識(shí)的學(xué)習(xí),具有更好的摘要效果.綜上所述,可以看出本文提出的方法在面向查詢的多文檔抽取式摘要任務(wù)中具有一定的有效性、優(yōu)越性.
本文針對面向查詢的多文檔抽取式摘要任務(wù),提出了一種基于層級(jí)BiGRU+Attention的面向查詢的新聞多文檔抽取式摘要方法.該方法通過層級(jí)BiGRU+Attention神經(jīng)網(wǎng)絡(luò)句子重要性打分模型考慮了文檔語法結(jié)構(gòu),建模了包含豐富上下文語義信息的句子、文檔向量表示;并在建模文檔向量表示時(shí)利用雙線性變換注意力機(jī)制,同時(shí)處理了多文檔中句子的文檔內(nèi)容顯著性以及查詢相關(guān)性,再利用句向量與文檔向量表示進(jìn)行相似度計(jì)算來獲得相應(yīng)的句子重要性得分;其次,在最后的句子綜合特征權(quán)重得分中綜合考慮了,通過神經(jīng)網(wǎng)絡(luò)隱式建模獲得的句子重要性得分,以及顯式建模的句子中包含的關(guān)鍵詞特征、句子的長度特征以及句子的時(shí)序權(quán)重系數(shù)等句子表面特征權(quán)重,從而提高最終摘要結(jié)果的質(zhì)量,更好地滿足用戶的信息需求.實(shí)驗(yàn)結(jié)果表明,本文所提出的方法能在一定程度上提高面向查詢的多文檔抽取式摘要效果.
本文方法的不足之處在于,在摘要句的選擇算法中是將候選摘要句的句子信息重要度與冗余度放在兩個(gè)孤立的過程中去分開考慮的,不能交互以利用對方的有效信息;因此,在下一步的研究中,考慮使用神經(jīng)網(wǎng)絡(luò)模型進(jìn)一步將候選摘要句的信息重要性和冗余性這兩部分結(jié)合起來同時(shí)考慮、互相協(xié)同,以進(jìn)一步提高摘要的性能.