亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合關(guān)鍵信息的PGN文本主題句生成方法

        2022-06-23 11:00:10何春輝黃宏斌
        關(guān)鍵詞:集上關(guān)鍵詞語(yǔ)

        葛 斌,何春輝,2+,黃宏斌

        (1.國(guó)防科技大學(xué) 信息系統(tǒng)工程重點(diǎn)實(shí)驗(yàn)室,湖南 長(zhǎng)沙 410073;2.湖南艾珂人力資源服務(wù)有限公司 研發(fā)部,湖南 長(zhǎng)沙 410208)

        0 引 言

        主題句作為一段文本的核心句子,它能通過(guò)簡(jiǎn)短的內(nèi)容反映出該段文本的主旨內(nèi)容。主題句提煉的質(zhì)量會(huì)直接影響后續(xù)的文本分類(lèi)[1]、自動(dòng)文摘[2]、信息檢索[3]等上層文本挖掘任務(wù)的性能,如何快速有效地自動(dòng)生成高質(zhì)量文本主題句是本文重點(diǎn)研究?jī)?nèi)容。

        當(dāng)前的文本主題句獲取方法主要分為抽取式和生成式兩種方式。抽取式是指從原始文本片段或文檔內(nèi)容中抽取一個(gè)具有代表性的句子作為主題句,這類(lèi)方法優(yōu)點(diǎn)是操作簡(jiǎn)單、效率高。同時(shí)缺點(diǎn)也很明顯,它一般只適用于涵蓋單一主題的文本主題句生成任務(wù)。對(duì)于涵蓋多種主題的文本而言,會(huì)存在如下兩個(gè)問(wèn)題:①不同主題通常會(huì)由不同的句子來(lái)描述,若只抽取一個(gè)關(guān)鍵句子作為主題句會(huì)比較片面,無(wú)法完全反映出原文的核心主旨內(nèi)容;②若抽取多個(gè)關(guān)鍵句子作為主題句會(huì)出現(xiàn)語(yǔ)義不連貫且內(nèi)容冗余的問(wèn)題。生成式通常采用端到端的深度學(xué)習(xí)模型來(lái)自動(dòng)生成主題句。但是現(xiàn)有模型通常對(duì)短文本的主題句生成效果較好,長(zhǎng)文本的主題句生成可讀性較差。為了解決上述問(wèn)題,本文提出了一種融合關(guān)鍵信息抽取和后處理技術(shù)的PGN文本主題句生成方法。它能夠在充分理解原始文本內(nèi)容的基礎(chǔ)上,抽取出少數(shù)具有代表性的關(guān)鍵句子來(lái)壓縮原始文本長(zhǎng)度。然后再根據(jù)關(guān)鍵句進(jìn)行概括性地生成一個(gè)能反映全文主旨的主題句。這種方法可以同時(shí)解決涵蓋單個(gè)主題和多個(gè)主題的文本主題句生成任務(wù),還可以針對(duì)不同類(lèi)型(新聞、微博等)文本進(jìn)行關(guān)鍵句子的抽取和參數(shù)優(yōu)化從而發(fā)揮模型的性能。圖1展示了模型的整體框架。

        圖1 文本主題句生成方法整體框架

        本文的主要貢獻(xiàn)如下:

        (1)提出了一種融合關(guān)鍵信息抽取和后處理技術(shù)的PGN文本主題句生成方法,解決主題句生成任務(wù);

        (2)引入了句子情感傾向加權(quán)特征和TextRank迭代算法來(lái)篩選原始文本中關(guān)鍵句子;

        (3)結(jié)合后處理技術(shù)對(duì)PGN模型生成的主題句進(jìn)行檢測(cè)和修正從而進(jìn)一步優(yōu)化主題句的生成質(zhì)量。

        1 相關(guān)研究

        抽取式方法主要從原始文本中篩選關(guān)鍵句子來(lái)構(gòu)建主題句,這類(lèi)方法在語(yǔ)法、句法上錯(cuò)誤率低。根據(jù)文檔類(lèi)型不同可分為單文檔主題句抽取和多文檔主題句抽取兩種類(lèi)型,主題句抽取任務(wù)已經(jīng)出現(xiàn)了很多經(jīng)典方法。王雍凱等[4]為準(zhǔn)確獲取與新聞主題語(yǔ)義最相關(guān)的句子,提出了一種基于圖的新聞事件主題句抽取方法。萬(wàn)國(guó)等[5]充分調(diào)研了新聞文本的結(jié)構(gòu)特征,分別從新聞標(biāo)題和正文兩個(gè)維度進(jìn)行分析,提出了一種特征加權(quán)的主題句抽取方法,并在新聞主題句抽取任務(wù)中取得了良好的效果。何春輝等[6]結(jié)合雙層的TextRank算法,將長(zhǎng)/短句子分別作為節(jié)點(diǎn),使用句子間相似度,構(gòu)造無(wú)向有權(quán)邊,從而進(jìn)行迭代更新節(jié)點(diǎn)值,最后成功抽取出文檔的主題句。部分學(xué)者提出使用Lead-1[7]和聚類(lèi)[8]的方式來(lái)完成主題句的抽取,也取得了不錯(cuò)的效果。此外,還有一些基于深度學(xué)習(xí)[9]和強(qiáng)化學(xué)習(xí)[10,11]方法基于人工標(biāo)注的主題句數(shù)據(jù)進(jìn)行訓(xùn)練模型來(lái)自動(dòng)識(shí)別與抽取主題句。針對(duì)多文檔主題句抽取任務(wù),馬亮等[12]通過(guò)融合詞語(yǔ)和主題相關(guān)特性給出了以關(guān)鍵詞抽取為核心的主題句選擇策略。受上述啟發(fā),王力等[13]通過(guò)抽取細(xì)粒度的主題信息以及增加主題信息的置信度來(lái)建模,提出了基于LDA模型的主題句抽取方法。任鵬杰等[14]探討如何利用深度學(xué)習(xí)模型結(jié)合句子回歸框架來(lái)提高多文檔主題句自動(dòng)抽取的性能。

        雖然當(dāng)前極少有針對(duì)充分理解原始文檔內(nèi)容含義后自動(dòng)生成主題句的研究。但是,近些年來(lái)隨著深度學(xué)習(xí)的發(fā)展,已經(jīng)有大批學(xué)者成功利用深度學(xué)習(xí)算法實(shí)現(xiàn)自動(dòng)文本摘要[15,16]的任務(wù)。李晨斌等[17]提出了基于改進(jìn)Encoder-Decoder模型的摘要生成方法,它在融合注意力機(jī)制后可以高效實(shí)現(xiàn)新聞文本自動(dòng)摘要任務(wù)。周健等[18]在引入Copy-Generator機(jī)制后提出了基于改進(jìn)Sequence-to-Sequence模型的文本摘要生成算法,并在中文公開(kāi)數(shù)據(jù)集上取得了很好的實(shí)驗(yàn)效果。受端到端模型的啟發(fā),王侃等[19]基于改進(jìn)的Transformer模型,在文本預(yù)處理階段引入先驗(yàn)知識(shí),將動(dòng)態(tài)詞向量作為訓(xùn)練文本的詞表征,然后通過(guò)Decoder將向量表達(dá)解碼生成目標(biāo)文本摘要,利用此方法生成摘要的流暢度會(huì)更高。為了克服生成文本內(nèi)容重復(fù)、曝光偏差等問(wèn)題,黨宏社等[20]提出了一種由存儲(chǔ)注意力和解碼自注意力構(gòu)成的混合注意力的強(qiáng)化學(xué)習(xí)摘要自動(dòng)生成方法。此外,結(jié)合指針生成網(wǎng)絡(luò)[21]、BERT預(yù)訓(xùn)練語(yǔ)言模型[22]以及變分自編碼器[23]來(lái)構(gòu)建自動(dòng)摘要方法已經(jīng)成為了當(dāng)前最佳解決方案。盡管主題句生成與自動(dòng)摘要存在一些細(xì)微的區(qū)別。為了更好生成文本主題句,受文本摘要的啟發(fā),基于自動(dòng)摘要思想和算法進(jìn)行重構(gòu)。本文提出了一種融合關(guān)鍵信息抽取和后處理技術(shù)的Pointer-Generator-Network[24]文本主題句生成方法。

        2 模型概述

        融合關(guān)鍵信息抽取和后處理技術(shù)的PGN文本主題句生成方法整體框架如圖1所示,它涵蓋了關(guān)鍵句篩選、BERT-PGN模型主題句生成、主題句內(nèi)容檢測(cè)與修正3個(gè)階段。

        第一階段為關(guān)鍵信息提取階段,具體是指關(guān)鍵句篩選。利用詞語(yǔ)TF-IDF值和句子情感傾向得分[25]的加權(quán)特性并結(jié)合TextRank算法來(lái)實(shí)現(xiàn)關(guān)鍵句的篩選;第二階段為PGN文本主題句生成階段,具體是利用基于BERT的PGN主題句生成模型。它通過(guò)BERT預(yù)訓(xùn)練語(yǔ)言模型將第一階段得到的關(guān)鍵句子按原始句子先后順序進(jìn)行拼接后再轉(zhuǎn)化成分布式向量,然后將這些向量依次輸入到指針生成網(wǎng)絡(luò)中并結(jié)合覆蓋機(jī)制來(lái)完成主題句的自動(dòng)生成;第三階段為后處理技術(shù)階段,具體是指主題句內(nèi)容檢測(cè)與修正。它主要是對(duì)第二階段生成的主題句的內(nèi)容和長(zhǎng)度進(jìn)行檢測(cè)與修正并輸出最終生成的主題句。

        2.1 關(guān)鍵句篩選

        文獻(xiàn)[26]揭示了短文本相對(duì)長(zhǎng)文本來(lái)說(shuō),它涵蓋更少的干擾信息,因此在自動(dòng)摘要生成任務(wù)上可以取得更好的效果。關(guān)鍵句篩選的目的就是壓縮原始文本,保留具有重要特征的關(guān)鍵句子,為第二階段構(gòu)造出高質(zhì)量的輸入數(shù)據(jù)做準(zhǔn)備。首先,需要對(duì)原始文本進(jìn)行分句,即根據(jù)分句標(biāo)點(diǎn)符號(hào) [,;。???] 利用正則表達(dá)式進(jìn)行匹配切分,得到原始句子列表。然后,依次對(duì)每一個(gè)句子做分詞處理并剔除停用詞,并計(jì)算所有有效詞語(yǔ)的TF-IDF值。接下來(lái),再調(diào)用文獻(xiàn)[25]中所述基于情感詞典和否定詞以及程度副詞相結(jié)合的句子情感打分算法Q(i) 來(lái)計(jì)算第i個(gè)句子的情感得分并進(jìn)行加權(quán)得到Si, 具體的加權(quán)公式Si計(jì)算如下

        Si=|Q(i)|+1

        (1)

        式中: |Q(i)| 表示第i個(gè)句子的情感得分的絕對(duì)值(大于等于0),Si作為該句的加權(quán)得分值和句中全部有效詞語(yǔ)的TF-IDF值相乘后作為有效詞語(yǔ)的初始權(quán)重。融合加權(quán)的情感得分特征之后可以顯式的增強(qiáng)帶有情感傾向性的句子中詞語(yǔ)的初始權(quán)重。再利用詞語(yǔ)的共現(xiàn)關(guān)系構(gòu)造無(wú)向圖一起輸入TextRank算法進(jìn)行迭代計(jì)算。最后,篩選出排名靠前的Top-K關(guān)鍵句子集合(K是可變化的整數(shù)參數(shù),建議K取值為5到10之間)。

        2.2 基于BERT的PGN主題句生成模型

        整個(gè)BERT-PGN主題句生成模型包含兩個(gè)核心部分,首先是向量表示模式BERT,再是指針生成網(wǎng)絡(luò)(PGN),模型的整體架構(gòu)如圖2所示。

        圖2 基于BERT的Pointer-Generator-Network (BERT-PGN)模型的架構(gòu)

        2.2.1 BERT預(yù)訓(xùn)練語(yǔ)言模型

        傳統(tǒng)語(yǔ)言模型可以用來(lái)計(jì)算任意連續(xù)字符串序列w1,w2,…,wn出現(xiàn)的概率P(w1,w2,…,wn)。 公式如下

        (2)

        雖然獨(dú)熱編碼方式可將詞語(yǔ)表示成向量,但它無(wú)法區(qū)分詞語(yǔ)的多重含義。BERT底層采用雙向Transformer的網(wǎng)絡(luò)架構(gòu)來(lái)抽取特征,并結(jié)合多頭注意力機(jī)制捕獲更多的上下文信息,從而將詞語(yǔ)轉(zhuǎn)化為語(yǔ)義特征更豐富的向量形式。自注意力機(jī)制的輸入部分由Query(Q), Key(K), Value(V) 這3個(gè)不同的向量構(gòu)成,再通過(guò)Q*K向量來(lái)表示輸入部分字向量之間的相似度,然后通過(guò)Dk進(jìn)行合理縮放。再通過(guò)SoftMax層映射出概率分布把句中所有詞語(yǔ)都轉(zhuǎn)化為分布式向量。注意力和多頭注意力的計(jì)算公式分別如下

        (3)

        MutiHead(Q,K,V)=Concat(head1,…,headn)W0

        (4)

        (5)

        2.2.2 指針生成網(wǎng)絡(luò)(PGN)

        指針生成網(wǎng)絡(luò)模型結(jié)合了指針網(wǎng)絡(luò)(pointer network,PN)和基于注意力的序列生成(sequence generator,SG)模型。它允許通過(guò)指針直接指向生成的詞語(yǔ),也可以從指定的詞表中生成詞語(yǔ)。處理步驟大致如下:首先是輸入預(yù)處理之后的文本,然后將這些文本依次輸入BERT特征編碼器進(jìn)行向量化表示,接下來(lái)將向量序列依次輸入雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)編碼器(Bi-LSTM),得到隱藏層序列hi。對(duì)于t時(shí)刻,循環(huán)神經(jīng)網(wǎng)絡(luò)解碼器端接收t-1時(shí)刻輸出的向量并給出解碼序列St。at表示t時(shí)刻輸入序列中的注意力算子。計(jì)算公式如下

        (6)

        (7)

        (8)

        (9)

        式中:V′,v,b,b′是可訓(xùn)練參數(shù)。模型利用生成概率分布Pgenerator來(lái)確定復(fù)制詞語(yǔ)還是重新生成詞語(yǔ),計(jì)算公式如下

        (10)

        式中:wh,ws,wx,bp是可調(diào)節(jié)參數(shù)。σ是激活函數(shù),xt是解碼序列。它所返回的生成詞語(yǔ)w的概率分布如下

        (11)

        在主題句生成的過(guò)程中,為了緩解重復(fù)生成同一個(gè)詞語(yǔ)的問(wèn)題。結(jié)合coverage機(jī)制引入向量ct來(lái)關(guān)聯(lián)已生成詞語(yǔ),并對(duì)已生成詞語(yǔ)加入懲罰因子,來(lái)解決重復(fù)生成的問(wèn)題。ct的計(jì)算方式如下

        (12)

        式中:ct是指截止當(dāng)前,它從注意力算子中獲得的覆蓋率。式(6)中at經(jīng)過(guò)更新后計(jì)算公式如下

        (13)

        式中:Wc是可調(diào)節(jié)的參數(shù)。

        2.3 主題句內(nèi)容檢測(cè)與修正

        對(duì)第二階段生成的主題句進(jìn)行內(nèi)容檢測(cè)實(shí)際上是針對(duì)兩類(lèi)特殊情形進(jìn)行檢測(cè)。第一類(lèi)是檢測(cè)是否包含重復(fù)生成詞語(yǔ)的問(wèn)題。根據(jù)中文的使用習(xí)慣,正常的句子中最多是連續(xù)出現(xiàn)兩個(gè)疊字,如果生成的主題句中被檢測(cè)出連續(xù)出現(xiàn)3個(gè)以上的疊字,那么說(shuō)明該主題句包含了重復(fù)內(nèi)容,算法會(huì)自動(dòng)采用正則替換的方法將生成的主題句中所有3個(gè)以上的連續(xù)疊字字符串替換成它所對(duì)應(yīng)的疊字字符串的前兩個(gè)字符,從而進(jìn)一步減少重復(fù)生成詞語(yǔ)的問(wèn)題。第二類(lèi)是對(duì)生成的主題句長(zhǎng)度進(jìn)行檢測(cè)。根據(jù)中文使用習(xí)慣,一個(gè)正常主題句的長(zhǎng)度通常不會(huì)小于4。因此,若去除疊字之后的主題句的長(zhǎng)度大于等于4,就直接把它作為最終的主題句輸出,若長(zhǎng)度小于4,則會(huì)把關(guān)鍵句篩選過(guò)程中排名第一的關(guān)鍵句直接作為最終生成的主題句進(jìn)行輸出。這樣可以在一定程度上避免異常生成的情況發(fā)生。

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集及評(píng)測(cè)方法

        3.1.1 實(shí)驗(yàn)數(shù)據(jù)集

        相關(guān)實(shí)驗(yàn)在兩個(gè)不同類(lèi)型的數(shù)據(jù)集上對(duì)所提出方法進(jìn)行了驗(yàn)證。LCSTS是由文獻(xiàn)[27]提出的公開(kāi)大規(guī)模中文微博領(lǐng)域短文本摘要數(shù)據(jù)集。Sub-THUCNews數(shù)據(jù)集是由文獻(xiàn)[28]給出的一份中文新聞數(shù)據(jù)集(主題句指新聞標(biāo)題)。相關(guān)數(shù)據(jù)集的統(tǒng)計(jì)信息見(jiàn)表1。

        表1 數(shù)據(jù)集的統(tǒng)計(jì)信息

        3.1.2 評(píng)價(jià)指標(biāo)

        Rouge指標(biāo)廣泛用于文本生成模型的性能評(píng)判。本文采用Rouge-1(1-元子序列)、Rouge-2(2-元子序列)、Rouge-L(最長(zhǎng)公共子序列)作為評(píng)價(jià)指標(biāo),對(duì)主題句生成結(jié)果進(jìn)行評(píng)價(jià)。其中Rouge-N和Rouge-L計(jì)算如式(14)~式(17)所示

        (14)

        其中,G是生成主題句內(nèi)容,Sref是參考主題句內(nèi)容,match(gramn) 是在生成主題句中的n元子序列(N-gram)出現(xiàn)的次數(shù),count(gramn) 是N-gram在參考主題句中出現(xiàn)的次數(shù)

        (15)

        (16)

        (17)

        其中,LCS(X,Y) 表示字符串X和Y的最長(zhǎng)公共子序列的長(zhǎng)度,X表示參考主題句內(nèi)容,Y表示生成主題句內(nèi)容,RLCS和PLCS分別表示召回率和精準(zhǔn)率,β=RLCS/PLCS。

        3.2 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)部分對(duì)微博類(lèi)、新聞?lì)愐约盎旌项?lèi)3種不同類(lèi)型的文本數(shù)據(jù)分別進(jìn)行了主題句自動(dòng)生成的實(shí)證研究。因?yàn)椴煌?lèi)型的文本數(shù)據(jù)長(zhǎng)度差距較大,因此在實(shí)驗(yàn)中,根據(jù)不同的文本類(lèi)型進(jìn)行主題句生成模型個(gè)性化參數(shù)配置是非常有效的一種優(yōu)化策略。模型參數(shù)配置分為兩個(gè)部分,第一部分是基礎(chǔ)參數(shù)配置,所有模型都一樣。第二部分是個(gè)性化參數(shù)配置,不同文本類(lèi)型對(duì)應(yīng)的模型之間存在一些微小差別。不同文本類(lèi)型所對(duì)應(yīng)BERT-PGN主題句生成模型的具體配置信息見(jiàn)表2。

        表2 不同文本類(lèi)型所對(duì)應(yīng)主題句生成模型的最優(yōu)配置信息

        其中,max_src_len表示模型輸入的最大原始文本長(zhǎng)度,超過(guò)部分會(huì)被自動(dòng)截?cái)?,不足部分,?huì)用指定的占位符自動(dòng)補(bǔ)齊,max_tsg_len表示生成主題句的最大長(zhǎng)度(該參數(shù)可根據(jù)實(shí)際情況進(jìn)行設(shè)置,本文結(jié)合文本類(lèi)型特征和人工經(jīng)驗(yàn)設(shè)置為25、40和50)。需要注意的是這里所說(shuō)的通用版本是指將微博類(lèi)和新聞?lì)悢?shù)據(jù)進(jìn)行混合之后訓(xùn)練得到的版本,這兩類(lèi)數(shù)據(jù)最大的區(qū)別就是文本長(zhǎng)度不一樣,通常情況下新聞?lì)悢?shù)據(jù)明顯比微博類(lèi)數(shù)據(jù)要長(zhǎng),因此對(duì)max_src_len和max_tsg_len做了折中處理分別設(shè)置為300和40。因?yàn)長(zhǎng)CSTS數(shù)據(jù)集是一個(gè)公開(kāi)的中文文本摘要生成評(píng)測(cè)數(shù)據(jù)集,因此本文首先用它來(lái)驗(yàn)證本文所提出模型的整體性能。采用的對(duì)比模型為基于循環(huán)神經(jīng)網(wǎng)絡(luò)的RNN及其變種RNN-context,以及引入了拷貝機(jī)制的端到端模型CopyNet+W。此外還跟一些經(jīng)典的指針生成網(wǎng)絡(luò)模型進(jìn)行了對(duì)比,例如PGC、BERT-PGN模型,以及性能優(yōu)良的變分模型VAESum。不同模型在LCSTS數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果見(jiàn)表3。

        表3 不同模型在LCSTS數(shù)據(jù)集上的Rouge得分結(jié)果

        根據(jù)表3的實(shí)驗(yàn)結(jié)果可知,在LCSTS數(shù)據(jù)集上,融合關(guān)鍵信息抽取和后處理技術(shù)的PGN文本主題句生成方法的Rouge得分總體上相對(duì)于其它基線方法更高。它與最先進(jìn)的方法相比而言,Rouge-1和Rouge-L分別提升了1.19和1.22,Rouge-2得分比最先進(jìn)的基線方法VAESum略低0.11。我們的方法相對(duì)于原始的BERT-PGN而言Rouge綜合得分至少高出了3分,說(shuō)明關(guān)鍵句篩選和生成主題句內(nèi)容檢測(cè)步驟在整個(gè)模型中起到了關(guān)鍵作用。上述實(shí)驗(yàn)結(jié)果充分說(shuō)明了融合關(guān)鍵信息抽取和后處理技術(shù)的PGN文本主題句生成方法在文本主題句生成任務(wù)上的有效性。為了驗(yàn)證關(guān)鍵句篩選策略的有效性和輸入原始文本長(zhǎng)度參數(shù)對(duì)模型性能的影響,在Sub-THUCNews數(shù)據(jù)集上開(kāi)展了兩組對(duì)比實(shí)驗(yàn)。第一組是不加關(guān)鍵句篩選的BERT-PGN模型和加了關(guān)鍵句篩選的BERT-PGN模型在Sub-THUCNew數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)(max_src_len設(shè)置為130時(shí),其它參數(shù)配置相同),相關(guān)的實(shí)驗(yàn)結(jié)果如圖3所示。

        圖3 關(guān)鍵句篩選策略對(duì)模型性能的影響

        由圖3結(jié)果可知,結(jié)合關(guān)鍵句篩選策略的模型性能明顯比沒(méi)有關(guān)鍵句篩選的要高。與此同時(shí),在Sub-THUCNew數(shù)據(jù)集上對(duì)關(guān)鍵句篩選過(guò)程中top-K的最優(yōu)K值設(shè)置進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖4所示。

        圖4 關(guān)鍵句篩選中不同的K值對(duì)模型性能的影響

        由圖4實(shí)驗(yàn)結(jié)果可知,K設(shè)置為5到10之間模型性能較優(yōu)。

        此外,還在Sub-THUCNews數(shù)據(jù)集上開(kāi)展了另一組對(duì)比實(shí)驗(yàn)。通過(guò)設(shè)置不同的max_src_len值對(duì)新模型性能進(jìn)行分析,結(jié)果如圖5所示。

        根據(jù)圖5結(jié)果可知,max_src_len參數(shù)對(duì)模型的性能有很大的影響,實(shí)驗(yàn)中分別設(shè)置了130、300、350、500,共4組不同的值。實(shí)驗(yàn)發(fā)現(xiàn)對(duì)于新聞?lì)怱ub-THUCNews數(shù)據(jù)集而言,當(dāng)max_src_len參數(shù)值為300或者350時(shí)實(shí)驗(yàn)效果較好。當(dāng)它等于130或者500時(shí),模型性能下降比較明顯。

        為了進(jìn)一步驗(yàn)證所提模型的魯棒性,當(dāng)K=10,max_tsg_len=40時(shí),在微博和新聞混合數(shù)據(jù)集上開(kāi)展了通用版本的主題句自動(dòng)生成的實(shí)驗(yàn),相關(guān)結(jié)果見(jiàn)表4。

        因?yàn)樵诨旌蠑?shù)據(jù)集上不同類(lèi)型的文本長(zhǎng)度存在較大的區(qū)別,實(shí)驗(yàn)中分別設(shè)置了max_src_len為100、200、300、400這4組不同的值進(jìn)行對(duì)比實(shí)驗(yàn)。根據(jù)表4的實(shí)驗(yàn)結(jié)果可知,融合關(guān)鍵信息抽取和后處理技術(shù)的PGN文本主題句生

        圖5 不同的max_src_len在Sub-THUCNews 數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果

        表4 模型在微博和新聞混合數(shù)據(jù)集上的Rouge得分

        成方法在混合數(shù)據(jù)類(lèi)型上當(dāng)max_src_len設(shè)置為300時(shí)主題句生成效果最好。模型在混合數(shù)據(jù)集上取得的最佳Rouge-1得分為37.93,Rouge-2和Rouge-L分別為23.65和33.27。說(shuō)明根據(jù)不同文本類(lèi)型進(jìn)行個(gè)性化參數(shù)設(shè)置的策略可以較好地提升模型的性能?;谕ㄓ冒姹就评淼玫降牟糠治⒉┖托侣?lì)愔黝}句生成結(jié)果與人工給出的參考主題句見(jiàn)表5。

        表5 在混合數(shù)據(jù)集上部分自動(dòng)生成的主題句與人工給出的參考主題句

        從表5中可以看出對(duì)主題句的檢測(cè)與修正策略起到了一定的作用,可以較好的修正3個(gè)以上的連續(xù)疊字和長(zhǎng)度小于4的主題句。由表5的結(jié)果可以看出新方法能夠充分理解上下文并同時(shí)解決不同文本類(lèi)型的主題句自動(dòng)生成任務(wù),生成的句子含義與人工所給出的參考內(nèi)容基本保持一致。

        4 結(jié)束語(yǔ)

        本文提出了一種兼容不同文本類(lèi)型的主題句自動(dòng)生成方法。實(shí)驗(yàn)結(jié)果表明,融合關(guān)鍵句篩選策略和后處理技術(shù)的PGN文本主題句生成方法可以有效提升模型的性能。此外,根據(jù)文本類(lèi)型自動(dòng)配置參數(shù)的策略,可以有效地改善不同類(lèi)型文本主題句自動(dòng)生成效果。所提模型生成的主題句涵蓋了關(guān)鍵信息且可讀性高,還能有效地避免內(nèi)容重復(fù)生成的問(wèn)題,且可以同時(shí)適應(yīng)微博、新聞?lì)愇谋緮?shù)據(jù)。

        未來(lái)會(huì)考慮引入GPT-3模型進(jìn)一步提升主題句生成質(zhì)量,并使用生成的主題句輔助完成文本分類(lèi)、文本檢索等相關(guān)的文本挖掘任務(wù)。

        猜你喜歡
        集上關(guān)鍵詞語(yǔ)
        容易混淆的詞語(yǔ)
        高考考好是關(guān)鍵
        找詞語(yǔ)
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
        復(fù)扇形指標(biāo)集上的分布混沌
        詞語(yǔ)欣賞
        一枚詞語(yǔ)一門(mén)靜
        獲勝關(guān)鍵
        NBA特刊(2014年7期)2014-04-29 00:44:03
        生意無(wú)大小,關(guān)鍵是怎么做?
        一边吃奶一边摸做爽视频| 亚洲av日韩精品一区二区| 青青草手机在线免费观看视频 | 欧美丰满熟妇性xxxx| 爱情岛永久地址www成人| 丁香婷婷色| 狠狠久久av一区二区三区| av在线观看一区二区三区| 色偷偷噜噜噜亚洲男人| 国产日韩欧美在线| 亚洲一区二区三区偷拍自拍| 在线观看亚洲av每日更新影片| 亚洲va国产va天堂va久久| 怡春院欧美一区二区三区免费| 久久久调教亚洲| 日本av不卡一区二区三区| 亚洲人精品午夜射精日韩| 性一乱一搞一交一伦一性 | 一区二区三区午夜视频在线 | 中文字幕av长濑麻美| 成人国产精品一区二区视频 | 久久国产偷| 手机在线观看亚洲av| 麻豆资源在线观看视频| 亚洲乱码中文字幕综合| 亚洲阿v天堂2018在线观看| 亚洲女同高清精品一区二区99 | 久久青青草原亚洲av无码麻豆| 国产精品白浆视频免费观看| 一级做a爱视频在线播放| 国产天堂av在线一二三四| 久久综合狠狠色综合伊人| 欧美日韩亚洲成色二本道三区| 加勒比一区二区三区av| 无码乱肉视频免费大全合集| 在线播放无码高潮的视频| 国产伦码精品一区二区| 丝袜美腿福利视频在线| 国产无遮挡又黄又爽免费网站| 亚洲国产欧美日韩一区二区| 国产成人亚洲精品一区二区三区|