亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合多層注意力表示的中文新聞文本摘要生成

        2023-11-02 12:35:32雷景生唐小嵐
        關(guān)鍵詞:文本實(shí)驗(yàn)信息

        王 騫 雷景生 唐小嵐

        (上海電力大學(xué) 上海 201300)

        0 引 言

        隨著互聯(lián)網(wǎng)的飛速發(fā)展以及智能手機(jī)的普及,海量的文本信息進(jìn)入并影響著人們的生活。如何從這些越來(lái)越龐大的數(shù)據(jù)中快速獲取自己想要的信息成為當(dāng)下閱讀的一個(gè)難題。文本自動(dòng)摘要技術(shù)應(yīng)運(yùn)而生,它可以對(duì)長(zhǎng)篇文檔“閱讀理解”之后概括出短小易懂的文本,從而便于讓人們快速了解文本內(nèi)容,掌握數(shù)據(jù)信息。目前文本摘要主要分為抽取式文本摘要和生成式文本摘要。

        抽取式摘要是指從原文中選擇比較重要的句子并提取出來(lái)作為摘要,這些句子常常包含一些關(guān)鍵詞或者能夠反映文章主旨的詞語(yǔ)。早期的抽取式摘要可以通過(guò)獲取包含高頻詞的句子[1],甚至可以直接選擇文章的前幾句作為摘要[2]。圖模型的興起為提高抽取式摘要的性能找到了突破口,它可以將文章中每個(gè)句子視作圖結(jié)構(gòu)中的節(jié)點(diǎn),句子間的關(guān)系視作連接節(jié)點(diǎn)的邊,如經(jīng)典算法TextRank[3]?;诖?張?jiān)萍兊萚4]提出了基于圖模型的多文檔摘要生成算法。羅芳等[5]提出了融合主題特征的多維度度量的文本摘要模型MDSR,通過(guò)定義主題重要度等概念,結(jié)合其他統(tǒng)計(jì)特征提高了摘要生成質(zhì)量。隨著神經(jīng)網(wǎng)絡(luò)的出現(xiàn),抽取式摘要技術(shù)迎來(lái)了巨大的革新。Chopra等[6]提出了可以解決序列數(shù)據(jù)任務(wù)的循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network);同樣作為序列數(shù)據(jù),Sutskever等[7]提出了Seq2Seq(sequence-to-sequence)模型,現(xiàn)在已成為文本摘要領(lǐng)域常用的架構(gòu)之一;隨后Bahdanau等[8]在序列模型的基礎(chǔ)上提出了注意力機(jī)制,它可以模仿人的閱讀習(xí)慣,極大地提升了文本摘要的效率。

        生成式摘要是將文本數(shù)據(jù)送入計(jì)算機(jī),這類似于人的閱讀過(guò)程,需要捕捉和歸納形成文章的主旨大意。生成式摘要可以包括原文本中沒(méi)有出現(xiàn)過(guò)的詞匯,更符合人類的習(xí)慣,因此越來(lái)越受研究人員的青睞。Perez-Beltrachini等[9]提出了一種包含層次解碼器的序列模型,它從文檔和句子兩個(gè)角度分別學(xué)習(xí)詞向量并加以組合,并結(jié)合LDA算法為每一個(gè)句子分配一個(gè)可能的主題,使得生成的句子表意全面且緊扣主題。寧珊等[10]提出了融合關(guān)鍵詞的文本摘要生成方法,它通過(guò)提取文中關(guān)鍵詞及相鄰詞的信息來(lái)達(dá)到提升主題關(guān)聯(lián)度的目的。倪海清等[11]提出了基于語(yǔ)義感知的短文本摘要生成模型,它結(jié)合了BERT預(yù)訓(xùn)練模型,并且用參考摘要作為監(jiān)督以計(jì)算不一致?lián)p失,生成了質(zhì)量較好的文本摘要。潘慧[12]通過(guò)無(wú)監(jiān)督的關(guān)鍵句抽取算法得到關(guān)鍵句,并將其壓縮為短文本,然后在短文本的基礎(chǔ)上運(yùn)行模型生成摘要。Nallapati等[13]通過(guò)對(duì)關(guān)鍵詞建模以及捕捉句子到單詞的結(jié)構(gòu),使生成的摘要結(jié)構(gòu)規(guī)范嚴(yán)謹(jǐn),這給本文提供了良好的思路。上述方法都有結(jié)合注意力機(jī)制,雖然在一定程度上提升了語(yǔ)義表示,但是未能注重中長(zhǎng)文本中經(jīng)常出現(xiàn)的遠(yuǎn)距離詞句關(guān)聯(lián),忽略了遠(yuǎn)距離詞句的依賴信息,造成文本表征不全面。

        為了解決上述問(wèn)題,本文提出了融合多層注意力表示的文本摘要方法。該方法總體沿用Seq2Seq架構(gòu),使用Transformer進(jìn)行編碼與解碼。首先通過(guò)對(duì)中長(zhǎng)文本進(jìn)行抽取式分割,得到用于后續(xù)生成式摘要訓(xùn)練的主體文本和輔助文本。然后對(duì)主體文本進(jìn)行圖卷積訓(xùn)練和依存句法分析,從句間信息和句子結(jié)構(gòu)兩個(gè)方面,得到相關(guān)詞句的動(dòng)態(tài)表征;同時(shí)對(duì)輔助文本進(jìn)行高頻主題詞抽取。最后將以上三種信息以三種注意力表示與Transformer進(jìn)行融合,加強(qiáng)輸入文本的信息表征,從而輸出表意更加全面的文本摘要。

        1 本文模型

        本文的主體研究路線如圖1所示。

        圖1 論文研究路線

        圖1中,首先將中文文本進(jìn)行預(yù)處理,并通過(guò)預(yù)訓(xùn)練模型得到詞向量,接著通過(guò)TextRank算法將文本分為主體文本和輔助文本;然后對(duì)主體文本進(jìn)行圖卷積和依存句法分析,分別得到包含句間序列信息的詞向量表征和包含句法結(jié)構(gòu)信息的依存詞對(duì),同時(shí)對(duì)輔助文本進(jìn)行高頻主題詞的挖掘,盡可能地利用文本信息,這里主要用到的方法是LDA和TF-IDF;最后將這三種信息送入Transformer模型并對(duì)模型稍作改進(jìn),得到最終的摘要。

        1.1 預(yù)訓(xùn)練模型

        ALBERT是BERT模型的優(yōu)化模型之一。它將原始BERT模型的Embedding Dimension(簡(jiǎn)稱E)與Hidden Dimension(簡(jiǎn)稱H)解綁,采用矩陣因式分解的方法,將原本的參數(shù)量V×H優(yōu)化為V×E+E×H,大大減少了模型參數(shù)。

        傳統(tǒng)Transformer的每一層參數(shù)都是獨(dú)立的,導(dǎo)致層數(shù)增加時(shí)帶來(lái)參數(shù)量的大幅上升。ALBERT模型將所有層的參數(shù)共享,相當(dāng)于只學(xué)習(xí)第一層的參數(shù),并在剩下的所有層中重新用該層的參數(shù)。實(shí)驗(yàn)發(fā)現(xiàn),使用共享參數(shù)不僅可以減小參數(shù)規(guī)模,提升運(yùn)算速度,還可以有效地提升模型穩(wěn)定性。

        另外,ALBERT將BERT模型中的“下一個(gè)句子預(yù)測(cè)”任務(wù)改為“句子順序預(yù)測(cè)”,提高了多種下游任務(wù)的表現(xiàn)。

        本文基于減少實(shí)驗(yàn)參數(shù)及提升詞向量表征的綜合考量,采用ALBERT模型對(duì)輸入文本詞匯進(jìn)行訓(xùn)練。

        1.2 TextRank算法

        TextRank是抽取式文摘領(lǐng)域的經(jīng)典算法,它是一種用于文本的基于圖的排序算法。它的基本思想是將每個(gè)句子視作節(jié)點(diǎn),句子間的相似度視作連接節(jié)點(diǎn)的邊上的權(quán)值。為每個(gè)節(jié)點(diǎn)初始化一個(gè)值,通過(guò)不斷迭代計(jì)算直到收斂。最終將結(jié)果值最高的K個(gè)節(jié)點(diǎn)即句子作為最終摘要。

        TextRank一般模型可以表示為一個(gè)有向有權(quán)圖G=(V,E),由點(diǎn)集合V和邊集合E組成。本文將中文數(shù)據(jù)集以句號(hào)分割得到的每一個(gè)句子vi作為節(jié)點(diǎn),以vi、vj兩個(gè)句子間的詞匯共現(xiàn)度作為節(jié)點(diǎn)上邊的權(quán)重wij。對(duì)于一個(gè)給定的點(diǎn)vi,(vi)為指向該點(diǎn)的點(diǎn)集合,Out(vi)為點(diǎn)vi指向的點(diǎn)集合。點(diǎn)vi的得分定義如下:

        (1)

        式中:d為阻尼系數(shù),表示從圖中某一節(jié)點(diǎn)指向其他任意點(diǎn)的概率,一般取0.85[14]。

        對(duì)于給定的句子Si和Sj,詞匯共現(xiàn)度計(jì)算公式如式(2)所示。

        (2)

        式中:sim(Si,Sj)表示兩個(gè)句子的共現(xiàn)度。

        每個(gè)頂點(diǎn)的最終取值與初始權(quán)值的選擇無(wú)關(guān),初始權(quán)值只會(huì)影響算法迭代直到收斂的次數(shù)??紤]到阻尼系數(shù)d取0.85,它表示圖中某一節(jié)點(diǎn)指向其他任一點(diǎn)的概率為0.85,則可認(rèn)為該節(jié)點(diǎn)對(duì)自身的轉(zhuǎn)移概率為0.15,即本文為每個(gè)句子節(jié)點(diǎn)賦初始權(quán)重為0.15。另外,TextRank算法中任意一點(diǎn)的誤差率小于給定的極限值就可以達(dá)到收斂,文獻(xiàn)[14]認(rèn)為該極限值是一個(gè)經(jīng)驗(yàn)值,一般取0.000 1即可令絕大部分節(jié)點(diǎn)的誤差率達(dá)到收斂,因此本文取該極限值為0.000 1。

        當(dāng)算法收斂時(shí),按照得分從高到低排序,取前40%的句子組合做主體文本。這里的40%是因?yàn)楸敬螌?shí)驗(yàn)所用的樣本平均長(zhǎng)度在10個(gè)句子左右(以句號(hào)分割),后續(xù)的對(duì)比實(shí)驗(yàn)要求樣本平均長(zhǎng)度為4,所以只取結(jié)果中前40%的句子,以達(dá)到數(shù)據(jù)集的一致性。

        1.3 依存句法分析

        依存指的是非對(duì)稱的、二元的中心詞與依賴詞之間的關(guān)系。依存句法分析通過(guò)分析語(yǔ)言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu)。對(duì)于計(jì)算機(jī)來(lái)說(shuō),理解詞匯本身的意思是很難的,但是可以通過(guò)理解詞匯所承受的語(yǔ)義框架來(lái)描述該詞匯。

        依存句法分析認(rèn)為句子中的核心動(dòng)詞是支配其他成分的中心成分,它本身不受支配。其次,其他成分間也存在支配關(guān)系。例如,“他一邊喝小米粥,一邊看小米電視。”這句話中,核心動(dòng)詞是“喝”,它與“看”是并列關(guān)系;“喝”與“小米粥”、“看”與“小米電視”分別是動(dòng)賓關(guān)系。但是句子中的“小米粥”與“小米電視”有相同的部分“小米”,如果僅僅只關(guān)注這個(gè)部分,相應(yīng)的詞向量會(huì)很難區(qū)分二者的差異。而通過(guò)依存句法分析之后,會(huì)很容易明白二者各自的含義。

        依存分析的結(jié)果表示為有向圖,如圖2所示。

        圖2 依存句法分析有向圖

        本文只關(guān)注三種主要的關(guān)系:動(dòng)賓關(guān)系dobj,如“喝”與“小米粥”;并列關(guān)系conj,如“喝”與“看”,復(fù)合關(guān)系compound,如“小米”與“電視”。將這些關(guān)系表示為依存詞對(duì),如<喝,小米粥>,詞對(duì)中的兩個(gè)詞可能相鄰,也可能距離稍遠(yuǎn);然后用詞位置信息替代,將其和原始詞向量送入Transformer編碼器,其中詞位置信息指的是該詞在句子中從前往后的位置;取最后一層encoder中每個(gè)詞對(duì)應(yīng)位置的隱藏層狀態(tài)向量,將兩個(gè)詞向量簡(jiǎn)單拼接,作為decoder的輸入。

        1.4 圖卷積神經(jīng)網(wǎng)絡(luò)

        圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)是近幾年流行起來(lái)的神經(jīng)網(wǎng)絡(luò)模型[15]。原始卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的感受野受制于目標(biāo)詞,很難滿足大多數(shù)場(chǎng)景的需求。現(xiàn)實(shí)生活中很多場(chǎng)景都呈現(xiàn)網(wǎng)狀結(jié)構(gòu)G=,其中:V代表節(jié)點(diǎn),E代表節(jié)點(diǎn)間的關(guān)系。而文本序列由于具有時(shí)序性,前面的詞句或多或少會(huì)影響到后面的詞句,且不同的詞句可以構(gòu)成不同的節(jié)點(diǎn)。這樣同時(shí)具備了圖結(jié)構(gòu)的節(jié)點(diǎn)和邊信息,因此本文嘗試使用圖卷積神經(jīng)網(wǎng)絡(luò)(見(jiàn)圖3)對(duì)文本數(shù)據(jù)進(jìn)行向量化表示并且學(xué)習(xí)更高層次的表征。

        圖3 圖卷積網(wǎng)絡(luò)的概念

        如圖3所示,GCN包含輸入層、輸出層和中間的隱藏層。H(0)表示經(jīng)過(guò)訓(xùn)練的詞向量組成的句矩陣輸入,H(N)表示輸出。中間每一個(gè)隱藏層的計(jì)算公式為:

        (3)

        (4)

        將詞向量矩陣作為一個(gè)節(jié)點(diǎn),句子之間的相似度作為邊的權(quán)重,構(gòu)建圖網(wǎng)狀結(jié)構(gòu)。這里的構(gòu)建過(guò)程與TextRank算法的圖構(gòu)建過(guò)程是相似的,但是迭代計(jì)算的原理不同。GCN的權(quán)重傳播原理如圖4所示。

        圖4 GCN節(jié)點(diǎn)權(quán)重傳播圖

        圖4中,A、B、C和D分別表示不同的節(jié)點(diǎn),以節(jié)點(diǎn)A為例,圖4(a)表示第一步:發(fā)射,將其他節(jié)點(diǎn)自身的特征信息經(jīng)過(guò)變換后發(fā)送給節(jié)點(diǎn)A,可以理解為對(duì)節(jié)點(diǎn)特征進(jìn)行抽取變換;圖4(b)表示第二步:接收,將節(jié)點(diǎn)A及其鄰居節(jié)點(diǎn)的特征信息聚合起來(lái),即融合該節(jié)點(diǎn)的局部信息;圖4(c)表示第三步:變換,把前面的信息聚合之后做非線性變換,增加向量的表達(dá)能力。

        圖卷積巧妙地將CNN的局部注意力轉(zhuǎn)換為一個(gè)節(jié)點(diǎn)對(duì)其鄰居節(jié)點(diǎn)的注意力,這無(wú)疑更加符合人類對(duì)網(wǎng)狀結(jié)構(gòu)的認(rèn)知。通過(guò)圖卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,可以得到更加具有綜合性、概括性的詞向量。從某種意義上講,圖卷積將文本的時(shí)間序列轉(zhuǎn)變成了空間序列,所以不用考慮之后的Seq2Seq架構(gòu)再次使用LSTM等循環(huán)神經(jīng)網(wǎng)絡(luò)。

        1.5 LDA與TF-IDF

        本節(jié)主要是通過(guò)LDA與TF-IDF算法對(duì)輔助文本進(jìn)行高頻主題詞的挖掘,輔助文本指的是對(duì)原始文本進(jìn)行抽取式提取關(guān)鍵句之后剩下的文本內(nèi)容。這部分文本中也必然包含著一些能夠表達(dá)文章主題的、頻繁出現(xiàn)的詞匯,因此對(duì)其進(jìn)行信息挖掘很有必要。

        1.5.1LDA

        LDA算法是一種文檔主題生成模型,其主要原理簡(jiǎn)單來(lái)講就是“文章以一定概率選擇了某個(gè)主題,然后又在這個(gè)主題下以一定概率選擇了某個(gè)單詞”,通過(guò)這樣一個(gè)層次關(guān)系將“文檔w-詞匯d”的關(guān)系拓展為“文檔w-主題t-詞匯d”。因此LDA算法的核心公式為:

        p(w|d)=p(w|t)×p(t|d)

        (5)

        LDA整個(gè)模型中所有可見(jiàn)變量以及隱藏變量的聯(lián)合分布為:

        p(wi,zi,θi,Φ|α,β)=

        (6)

        式中:wi表示文本中第i個(gè)詞;zi表示第i個(gè)主題;θi表示從狄利克雷分布α中取樣生成文本i的主題分布;zi,j表示從主題的多項(xiàng)式分布θi中取樣生成文檔i第j個(gè)詞的主題;Φ表示從狄利克雷分布β中取樣生成主題zi,j的詞語(yǔ)分布,其具體分布形式寫為φzi,j;wi,j表示從詞語(yǔ)的多項(xiàng)式分布Φ中采樣生成的最終詞語(yǔ)。

        最終一篇文檔的單詞分布的最大似然估計(jì)可以通過(guò)對(duì)式(6)中的θi、Φ進(jìn)行積分以及對(duì)zi進(jìn)行求和得到,即:

        (7)

        根據(jù)式(7),本文目的是得到主題分布zi和詞匯分布wi。常用的方法是采用Gibbs采樣對(duì)其進(jìn)行參數(shù)估計(jì)來(lái)得到主題-詞參數(shù)矩陣Φ和文檔-主題矩陣θ,最終得到輔助樣本中各篇文檔的主題詞。

        1.5.2TF-IDF

        TF-IDF算法常用于計(jì)算文本中的加權(quán)詞頻,得到文本中較為重要的詞。TF指的是詞頻,IDF指逆文本頻率指數(shù)。其主要思想是:一個(gè)詞若能在一篇文章中高頻出現(xiàn),且在其他文章中很少出現(xiàn),則認(rèn)為這個(gè)詞能夠代表這篇文章,即該詞是這篇文章的關(guān)鍵詞。

        (8)

        (9)

        式(8)表示第i個(gè)詞條的TF值,其中分子表示某篇文章中包含第i個(gè)詞條的個(gè)數(shù),分母則表示這篇文章的總詞條數(shù)目。式(9)表示第i個(gè)詞條的IDF值,括號(hào)內(nèi)分子表示數(shù)據(jù)集中的文章總數(shù),分母表示數(shù)據(jù)集中包含第i個(gè)詞條的文章總數(shù),之所以要加1,是為了避免分母為0;boolean(i)表示如果第i個(gè)詞條在第m篇文章中,則為1,反之則為0。最終的TF-IDF計(jì)算公式為:

        TF_IDF=TF×IDF

        (10)

        TF_IDF值越大,則這個(gè)詞成為一個(gè)關(guān)鍵詞的概率就越大。

        通過(guò)以上兩種算法分別得到輔助樣本中每個(gè)文本的主題詞與關(guān)鍵詞,本文對(duì)這兩個(gè)集合取交集得到最終的高頻主題詞。

        1.6 融合多層注意力表的Transformer模型

        通過(guò)1.3節(jié)、1.4節(jié)和1.5節(jié),分別得到依存詞對(duì)、圖卷積表示以及輔助樣本中的高頻主題詞,現(xiàn)在將它們分別輸入Transformer模型中,進(jìn)行學(xué)習(xí)以及文本摘要的生成。

        1.6.1傳統(tǒng)的Transformer模型

        Transformer模型是由Google團(tuán)隊(duì)為解決Seq2Seq問(wèn)題而提出的,它用全attention的結(jié)構(gòu)代替了長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM,在自然語(yǔ)言處理領(lǐng)域取得了很好的效果。Transformer模型的結(jié)構(gòu)如圖5所示。

        圖5 Transformer結(jié)構(gòu)圖

        Transformer包括n個(gè)編碼器和n個(gè)解碼器,每個(gè)編碼器中又包含兩個(gè)子層,分別是多頭注意力層和前饋層;解碼器在編碼器中兩層的基礎(chǔ)上,又加入一個(gè)編碼-解碼注意力子層。除此之外,上述所有子層之后都有一個(gè)殘差連接和歸一化層,目的是為了連接低維的向量、減小不同范圍數(shù)據(jù)的不利影響。

        文本數(shù)據(jù)通過(guò)編碼和嵌入位置信息之后,進(jìn)入編碼器,通過(guò)多頭自注意力層對(duì)文本不同位置的信息進(jìn)行學(xué)習(xí),然后在前饋層調(diào)整權(quán)重等參數(shù);通過(guò)n個(gè)這樣的編碼器,在最頂端輸出包含隱藏層信息的狀態(tài)向量,再次輸入解碼器;解碼器的大致步驟和編碼器相同,但是自注意力層只處理輸出序列中靠前的位置,因?yàn)榭亢笪恢玫男畔?huì)對(duì)輸出序列進(jìn)行引導(dǎo),達(dá)不到預(yù)測(cè)目標(biāo)位置詞匯的效果。

        1.6.2融合多種注意力表示的改進(jìn)Transformer模型

        傳統(tǒng)的Transformer模型在編碼解碼時(shí)通過(guò)設(shè)置多頭注意力層對(duì)句子不同的位置進(jìn)行局部注意力感知,最后將其拼接為完整的詞向量。這種局部注意力只能對(duì)目標(biāo)詞周圍視野內(nèi)的詞信息進(jìn)行學(xué)習(xí),但是有時(shí)候無(wú)意義地對(duì)周圍詞信息進(jìn)行學(xué)習(xí)非常浪費(fèi)計(jì)算成本和時(shí)間,因?yàn)榭赡芟噜彽膬蓚€(gè)詞或多個(gè)詞并沒(méi)有多大的關(guān)聯(lián),僅僅是文本語(yǔ)義上的遞進(jìn),或者稱之為“自然堆砌”。因此引導(dǎo)局部注意力機(jī)制向更有效率的方向聚焦非常有必要。

        本文在傳統(tǒng)局部注意力的基礎(chǔ)上,使用前文提到的圖卷積表示的詞向量作為Transformer編碼器的基礎(chǔ)輸入,結(jié)合依存詞對(duì)和高頻主題詞的信息,設(shè)計(jì)了以下改進(jìn)的Transformer模型。

        首先將高頻主題詞分別與圖卷積表示的詞向量矩陣進(jìn)行相似度計(jì)算,得到每個(gè)詞與高頻主題詞相似度的由高到低的排序,計(jì)算公式如下:

        (11)

        式中:wj表示句子中的第j個(gè)詞;gi表示高頻主題詞集中的第i個(gè)詞。通過(guò)將兩個(gè)詞向量進(jìn)行相乘,得到它們之間的相似性,繼續(xù)計(jì)算該詞與下一個(gè)主題詞的相似性,依此類推,最后將所有相似度累加,得到該詞與主題的整體相關(guān)度。將句子中的每個(gè)詞都計(jì)算其與主題的相關(guān)度,選擇相關(guān)度最高的TopK個(gè)詞,并對(duì)這些詞設(shè)置特殊標(biāo)記位,原理圖如圖6所示。

        圖6 改進(jìn)的Transformer結(jié)構(gòu)

        圖6中Wd和Wd′分別表示原始滑動(dòng)窗口長(zhǎng)度和擴(kuò)展之后的窗口長(zhǎng)度。帶星號(hào)的位置表示與主題高度相關(guān)的詞。

        處理完文本輸入之后,將其放入Transformer模型進(jìn)行學(xué)習(xí)。當(dāng)?shù)谝粋€(gè)編碼器學(xué)習(xí)到具有星號(hào)標(biāo)記位的詞時(shí),將滑動(dòng)窗口的左右長(zhǎng)度各放大一個(gè)單位。因?yàn)樵撛~與主題相關(guān)度高,故認(rèn)為其周圍的詞也可能包含更多的主題信息,這樣在頂層編碼器能夠使目標(biāo)詞學(xué)習(xí)到更多周圍詞的信息。

        在最后一個(gè)編碼器學(xué)習(xí)完畢之后,根據(jù)依存詞對(duì)儲(chǔ)存的位置信息,將對(duì)應(yīng)詞的隱狀態(tài)向量提取出來(lái),隨后放入解碼器進(jìn)行學(xué)習(xí)。

        進(jìn)入解碼階段,大致步驟和傳統(tǒng)的Transformer解碼器相同。不同之處在于,如果解碼的時(shí)候碰到了具有依存信息的詞時(shí),則將該詞周圍位置的詞隱狀態(tài)向量改為和該詞具有依存關(guān)系詞的隱狀態(tài)向量??紤]到有些詞并沒(méi)有依存關(guān)系,因此對(duì)這些詞依然采用原來(lái)的局部注意力處理。即:

        Attention=(1-p)×D_Attention+

        p×L_Attention,p∈{0,1}

        (12)

        式中:D_Attention表示依存注意力;L_Attention表示局部注意力。

        綜上,將圖卷積表示的詞向量作為基礎(chǔ)輸入,此為第一種注意力表示;根據(jù)高頻主題詞的信息,將傳統(tǒng)局部注意力適當(dāng)放大,以學(xué)習(xí)到更多主題信息,此為第二種注意力表示;按照依存關(guān)系對(duì)目標(biāo)詞進(jìn)行更遠(yuǎn)距離的信息學(xué)習(xí),此為第三種注意力表示。

        2 實(shí)驗(yàn)與結(jié)果分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文采用文本摘要研究領(lǐng)域較為通用的數(shù)據(jù)集,即NLPCC2017任務(wù)中面向今日頭條的新聞文本摘要數(shù)據(jù)集,該數(shù)據(jù)集涵蓋民事、科技、娛樂(lè)、醫(yī)學(xué)、軍事等十多個(gè)領(lǐng)域內(nèi)的中文新聞內(nèi)容,每一篇新聞文本都含有新聞對(duì)應(yīng)的人工撰寫的摘要,可用于評(píng)估針對(duì)互聯(lián)網(wǎng)媒體網(wǎng)站上新聞文檔的自動(dòng)摘要技術(shù)。訓(xùn)練集包括文本內(nèi)容和參考摘要共100 418條,測(cè)試集包括文本內(nèi)容和參考摘要共4 000條。

        2.2 實(shí)驗(yàn)過(guò)程

        首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理:由于本文研究的是中長(zhǎng)文本摘要,因此先將文本過(guò)短的新聞進(jìn)行剔除,剔除后新聞數(shù)量約為10萬(wàn)條;然后對(duì)文本進(jìn)行分詞、去停用詞、詞性標(biāo)注等工作;最后按照?qǐng)D1的流程進(jìn)行實(shí)驗(yàn)。詞性標(biāo)注的工作是為了之后的依存句法分析便于進(jìn)行。

        2.3 實(shí)驗(yàn)結(jié)果評(píng)價(jià)指標(biāo)

        本論文實(shí)驗(yàn)采用國(guó)際通用的摘要評(píng)價(jià)指標(biāo)ROUGE,ROUGE分?jǐn)?shù)用于計(jì)算生成摘要與參考摘要的詞匯重疊度。本文采用其中的ROUGE-1、ROUGE-2、ROUGE-S4。ROUGE-1和ROUGE-2分?jǐn)?shù)分別表示公共詞長(zhǎng)度為1和2的重疊度,這兩個(gè)指標(biāo)直觀簡(jiǎn)潔,能夠在一定程度上反映詞序;ROUGE-S4表示詞間最大距離為4,比n-gram模型更能深入反映句子級(jí)詞序。

        2.4 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

        本實(shí)驗(yàn)的環(huán)境配置和參數(shù)設(shè)置分別如表1和表2所示。

        表1 實(shí)驗(yàn)環(huán)境配置

        表2 實(shí)驗(yàn)參數(shù)設(shè)置

        2.5 實(shí)驗(yàn)結(jié)果分析

        為了探究本文模型的優(yōu)劣,選擇以下摘要模型作為基線模型,分別是經(jīng)典的TextRank抽取式摘要模型(取得分最高的兩個(gè)句子組成摘要)、傳統(tǒng)的Transformer生成式摘要模型、羅芳等[5]提出的MDSR摘要模型、寧珊等提出的融合關(guān)鍵詞的摘要模型(下文簡(jiǎn)稱為“關(guān)鍵詞模型”)。后兩種模型由于建立在短文本數(shù)據(jù)集上,因此直接使用本文中的主體文本作為數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。為了證明數(shù)據(jù)集的基準(zhǔn)性,本文還與NLPCC2017文本摘要任務(wù)中排名靠前的NLP@WUST團(tuán)隊(duì)的實(shí)驗(yàn)?zāi)P蚚16]進(jìn)行對(duì)比。該團(tuán)隊(duì)使用基于句子抽取的特征工程來(lái)獲得抽取式摘要,并通過(guò)句子壓縮算法進(jìn)一步提高摘要質(zhì)量。另外,針對(duì)本文的多層注意力表示,設(shè)置多個(gè)消融分析實(shí)驗(yàn),觀察其中各層注意力的效果。

        2.5.1本文模型與基線模型對(duì)比實(shí)驗(yàn)

        通過(guò)在NLPCC 2017文本摘要集上對(duì)各模型進(jìn)行復(fù)現(xiàn)實(shí)驗(yàn),得到五個(gè)基線模型與本文模型的ROUGE分?jǐn)?shù),具體如表3所示。

        表3 各模型結(jié)果對(duì)比實(shí)驗(yàn)結(jié)果(%)

        為了更直觀地觀察分析結(jié)果,將該表數(shù)據(jù)繪制為如圖7所示的折線統(tǒng)計(jì)圖。

        圖7 各模型對(duì)比實(shí)驗(yàn)結(jié)果圖

        可以看出,本文提出的融合多層注意力表示的文本摘要方法在各項(xiàng)指標(biāo)上均有提升。與經(jīng)典的TextRank算法模型和傳統(tǒng)的Transformer序列模型相比較,本文模型效果有了一倍多的提升,分析原因可知,本文提出的多層注意力表示已經(jīng)將TextRank算法的思想、傳統(tǒng)的Transformer模型涵蓋在內(nèi),并且在其上有了更大的改進(jìn),因此會(huì)有一個(gè)很大的提升。與MDSR模型、關(guān)鍵詞模型相比較,本文模型的ROUGE-S4分?jǐn)?shù)分別增加了3.95百分點(diǎn)和1.50百分點(diǎn),原因在于本文模型在照顧到高頻主題詞的基礎(chǔ)上,不僅增加了句法結(jié)構(gòu)方面的知識(shí)和相關(guān)的遠(yuǎn)距離注意力跳轉(zhuǎn),還對(duì)相鄰詞句進(jìn)行了更高層次的圖卷積表示,極大地豐富了詞向量的表征。NLP@WUST團(tuán)隊(duì)的模型ROUGE-2分?jǐn)?shù)為22.53%,是所有實(shí)驗(yàn)中最高的,但是ROUGE-S4分?jǐn)?shù)比本文模型低2.42百分點(diǎn),分析原因可知該團(tuán)隊(duì)的模型用特征工程的方法,結(jié)合多種詞句特征在原文中選擇出具有代表性的詞匯,但是并沒(méi)有對(duì)長(zhǎng)距離詞句關(guān)系進(jìn)行探究,因此呈現(xiàn)出詞匯共現(xiàn)度高但是句子級(jí)詞序描述不足的結(jié)果。綜上所述,本文提出的方法可以被證明對(duì)文本摘要具有可行性,且能達(dá)到較好的效果。

        2.5.2本文模型各層注意力消融分析實(shí)驗(yàn)

        為了探究本文方法中各層注意力表示的效果,設(shè)置以下消融分析實(shí)驗(yàn)。以傳統(tǒng)的Transformer序列模型作為對(duì)照,分別以GCN、依存詞、主題詞三種注意力表示、三者之間兩兩結(jié)合以及最后三者綜合起來(lái)進(jìn)行對(duì)比分析,得到如圖8所示的條形統(tǒng)計(jì)圖(為了方便對(duì)比,去掉了解釋性最差的ROUGE-1分?jǐn)?shù))。

        圖8 各注意力消融分析結(jié)果圖

        由圖8看出,在第二至第四組實(shí)驗(yàn)中,GCN加Transformer的表現(xiàn)最好,其ROUGE-2、ROUGE-S4分?jǐn)?shù)比依存詞加Transformer分別高了約3百分點(diǎn)和2百分點(diǎn),比主題詞加Transformer分別高了約4百分點(diǎn)和2.5百分點(diǎn);在第五至第七組實(shí)驗(yàn)中,GCN加依存詞和Transformer的ROUGE得分最高,分別比其他兩組的得分高了約2百分點(diǎn)、4百分點(diǎn)。這表明,同數(shù)量層的注意力表示中,包含圖卷積GCN表示的實(shí)驗(yàn)效果是最佳的,其次是依存詞,最后是主題詞。分析原因可以知道,實(shí)驗(yàn)中先做的是圖卷積表示,每個(gè)詞向量都學(xué)習(xí)到大量周圍詞以及相鄰句子的知識(shí),而依存詞和主題詞分別在其基礎(chǔ)上進(jìn)行優(yōu)化改進(jìn),且主題詞是在輔助文本中挖掘得到,主體文本中已經(jīng)包含了許多主題相關(guān)的關(guān)鍵詞,因此對(duì)實(shí)驗(yàn)的積極影響都相對(duì)較小。

        2.6 典型示例說(shuō)明

        為了更加具象化實(shí)驗(yàn)數(shù)據(jù)的解釋性,實(shí)驗(yàn)還選取了數(shù)據(jù)集中的一條新聞樣本在各個(gè)模型下生成的摘要進(jìn)行對(duì)比說(shuō)明。如表4所示,其中包括文本內(nèi)容、參考摘要、對(duì)比實(shí)驗(yàn)的摘要以及本文模型的摘要。

        表4 各模型生成的摘要示例

        可以看出,TextRank、MDSR、NLP@WUST的結(jié)果屬于抽取式摘要,而Transformer、關(guān)鍵詞模型、本文模型的結(jié)果屬于生成式摘要。TextRank和MDSR的摘要可讀性較差,前者直接抓取了文本的前兩句內(nèi)容,后者則僅生成了關(guān)鍵詞的集合;Transformer和關(guān)鍵詞模型的摘要大意和參考摘要貼合,但是句式結(jié)構(gòu)糅雜,部分語(yǔ)義模糊的問(wèn)題很明顯;而NLP@WUST團(tuán)隊(duì)模型的摘要缺少主語(yǔ)。本文模型利用圖卷積和依存關(guān)系解決了長(zhǎng)距離依賴和句式結(jié)構(gòu)的問(wèn)題,并且通過(guò)挖掘高頻主題詞使得摘要進(jìn)一步貼合主題,所以生成了可讀性更好、表意完整、句式結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)恼?/p>

        3 結(jié) 語(yǔ)

        本文針對(duì)傳統(tǒng)的文本序列模型向量表征不全面,且融合句法結(jié)構(gòu)信息方面稍顯欠佳的問(wèn)題,提出了一種融合多種注意力表示的文本摘要方法。本方法適用于中長(zhǎng)文本數(shù)據(jù)集,首先通過(guò)抽取式摘要技術(shù)將文本分割為主體文本和輔助文本,然后利用圖卷積網(wǎng)絡(luò)、依存句法分析和高頻主題詞得到融合后的注意力表示,最后將其送入Transformer序列模型中,得到文本摘要。實(shí)驗(yàn)結(jié)果相較于經(jīng)典的算法模型和目前的幾個(gè)研究更優(yōu),下一步的工作是研究如何融合更多更復(fù)雜的句法結(jié)構(gòu),且巧妙地改進(jìn)注意力模型來(lái)獲得質(zhì)量更高的文本摘要。

        猜你喜歡
        文本實(shí)驗(yàn)信息
        記一次有趣的實(shí)驗(yàn)
        在808DA上文本顯示的改善
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        展會(huì)信息
        如何快速走進(jìn)文本
        日韩av东京社区男人的天堂| 亚洲综合有码中文字幕| 91熟女av一区二区在线| 亚洲在战AV极品无码| 国产诱惑人的视频在线观看| 亚洲av高清一区二区三区| 人妻久久久一区二区三区蜜臀| 精品福利一区二区三区免费视频| 国产精品美女久久久久| 久久精品亚洲中文无东京热| 亚洲一区二区在线视频,| 日韩中文字幕有码午夜美女| 国产精品狼人久久久久影院| 综合精品欧美日韩国产在线| 香港三级欧美国产精品| 日本韩国三级在线观看| 私人vps一夜爽毛片免费| aaaaa级少妇高潮大片免费看| 国产亚洲精品国看不卡| 国产美腿丝袜一区二区| 欧美成妇人吹潮在线播放| 国产成人亚洲精品无码mp4| 91精品国产91| 中文字幕成人精品久久不卡91| 丰满少妇按摩被扣逼高潮| 欧美另类高清zo欧美| 国内精品一区二区2021在线 | 日韩人妻ol丝袜av一二区| 无码免费一区二区三区| 在线观看av永久免费| 亚洲国产精品久久久久婷婷软件| 男女调情视频在线观看| 一本一本久久aa综合精品| 特级毛片a级毛片免费播放| 无码视频一区=区| 国产午夜视频高清在线观看| 男女射黄视频网站在线免费观看 | 欧美性猛交99久久久久99按摩| 成年午夜无码av片在线观看| bbbbbxxxxx欧美性| 国产流白浆视频在线观看 |