亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于實(shí)體注意力的生成式摘要算法

        2022-04-14 06:48:12李蕭洋周安民
        現(xiàn)代計(jì)算機(jī) 2022年1期
        關(guān)鍵詞:詞匯表可讀性注意力

        李蕭洋,周安民

        (四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,成都 610065)

        0 引言

        大數(shù)據(jù)時(shí)代的到來(lái)使得信息的獲取和傳播日益便捷,但隨之而來(lái)的信息過(guò)載問(wèn)題也不容小覷。文本摘要作為從海量的信息中提取出關(guān)鍵信息的重要手段,旨在從原文本中提煉出簡(jiǎn)潔精煉且能夠反映原文中心內(nèi)容的短文,從而幫助讀者從較長(zhǎng)文本中快速篩選出有效信息,達(dá)到快速瀏覽、有效篩選、精準(zhǔn)閱讀的效果。然而,人工提取摘要耗時(shí)費(fèi)力,因此自動(dòng)文本摘要技術(shù)應(yīng)運(yùn)而生。

        近年來(lái),自動(dòng)文本摘要任務(wù)已經(jīng)成為了自然語(yǔ)言處理領(lǐng)域的熱門研究方向之一,并且在醫(yī)學(xué)、新聞、金融、學(xué)術(shù)等領(lǐng)域都有實(shí)際的應(yīng)用,如觀點(diǎn)摘要、專利摘要、新聞?wù)取,F(xiàn)有的自動(dòng)文摘方法主要分為抽取式和生成式兩大類。前者的核心在于從原始文檔中提取關(guān)鍵的短語(yǔ)或句子進(jìn)行重組,該方法提取出來(lái)的摘要能夠保留文章中的關(guān)鍵信息且有著良好的語(yǔ)法,但是由于缺乏某些特定的連接詞往往可讀性較低。后者是模仿人類歸納摘要的過(guò)程對(duì)原文的內(nèi)容進(jìn)行理解和壓縮,該方法可以根據(jù)語(yǔ)義內(nèi)容來(lái)生成摘要且可以生成原文中未出現(xiàn)的內(nèi)容,但是往往依賴于大量高質(zhì)量標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練模型,且可能出現(xiàn)一些語(yǔ)法與事實(shí)方面的錯(cuò)誤。

        針對(duì)生成式摘要中存在的語(yǔ)法錯(cuò)誤與事實(shí)描述不準(zhǔn)確的問(wèn)題,本文提出了一種基于seq2seq模型并融合時(shí)序信息與實(shí)體信息的生成式摘要算法,并在開(kāi)源的中文長(zhǎng)文本摘要數(shù)據(jù)集CLTS上對(duì)其有效性進(jìn)行了驗(yàn)證。

        1 相關(guān)研究

        隨著深度學(xué)習(xí)的發(fā)展,現(xiàn)有的生成式自動(dòng)文摘方法主要利用深度學(xué)習(xí)的相關(guān)知識(shí)對(duì)文本進(jìn)行自動(dòng)建模與分析,快速準(zhǔn)確地從源文本中提取有效信息,在輿情分析、智能問(wèn)答、觀點(diǎn)挖掘等方面都有廣泛的應(yīng)用。

        Nallapati等將循環(huán)神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合構(gòu)建了一個(gè)端到端的摘要生成系統(tǒng),使得解碼器在生成的每一步都聚焦于當(dāng)前的輸入,在主流的摘要生成數(shù)據(jù)集上都取得了較好的效果,但是模型的生成能力依然受限于詞匯表。在此基礎(chǔ)上,See等提出了指針網(wǎng)絡(luò)來(lái)解決詞匯表限制問(wèn)題,即在每一個(gè)解碼時(shí)刻由指針網(wǎng)絡(luò)決定是根據(jù)詞匯表生成詞語(yǔ)還是從原文中直接復(fù)制,進(jìn)一步提高了生成摘要的可讀性。此外,隨著自然語(yǔ)言處理領(lǐng)域的發(fā)展,Liu等提出了一種基于BERT模型的摘要生成方法,通過(guò)使用不同的優(yōu)化器對(duì)編碼端和解碼端進(jìn)行微調(diào),使生成式摘要的質(zhì)量達(dá)到了新的高度。

        2 基于實(shí)體注意力的生成式摘要模型

        2.1 問(wèn)題分析

        現(xiàn)有的生成式摘要算法雖然能夠取得比較好的可讀性,但仍然存在著以下問(wèn)題:①現(xiàn)有的研究成果大多面向英文新聞文本,針對(duì)中文長(zhǎng)文本的研究比較少。②當(dāng)處理長(zhǎng)文本問(wèn)題時(shí),由于神經(jīng)網(wǎng)絡(luò)的記憶能力有限,會(huì)導(dǎo)致部分關(guān)鍵信息的丟失;另外處理長(zhǎng)時(shí)記憶問(wèn)題時(shí)往往需要比較大的資源和時(shí)間開(kāi)銷。③由于某些特定的實(shí)體詞語(yǔ)難以被神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),現(xiàn)有方法生成的摘要盡管有著較高的可讀性,但是在事實(shí)準(zhǔn)確性方面卻有所欠缺。

        針對(duì)上述問(wèn)題,本文面向中文長(zhǎng)文本摘要,聚焦于實(shí)體信息和時(shí)序信息,提出了一種基于實(shí)體注意力的生成式摘要算法。該算法基于seq2seq模型,將實(shí)體信息引入編碼器端以及損失函數(shù)中,在保留模型生成可讀性摘要能力的同時(shí),提高生成摘要的事實(shí)準(zhǔn)確性。

        2.2 基于實(shí)體注意力的生成式摘要模型

        圖1 基于實(shí)體注意力的生成式摘要模型

        最后編碼器端的語(yǔ)義向量由以上兩種注意力混合而成,其計(jì)算如公式(5):

        其中、為模型要學(xué)習(xí)的參數(shù);||代表向量的拼接。

        其次使用指針開(kāi)關(guān)來(lái)衡量一個(gè)詞應(yīng)該采取生成策略還是復(fù)制策略,充分考慮編碼器端語(yǔ)義向量c、解碼器端隱藏狀態(tài)h和解碼器端的輸入x,其計(jì)算公式如(7):

        其中 、 、 、為模型要學(xué)習(xí)的參數(shù)。

        最后得到擴(kuò)充后的詞匯表分布如公式(8)所示:

        2.3 損失函數(shù)

        在傳統(tǒng)的seq2seq模型中,通常以最小化每一個(gè)解碼時(shí)刻的最大似然損失為目標(biāo)來(lái)訓(xùn)練模型,即,對(duì)于輸入文章,記參考摘要為={,,…,},模型訓(xùn)練的目標(biāo)函數(shù)如公式(9):

        其中代表傳統(tǒng)的二進(jìn)制交叉熵函數(shù);代表當(dāng)前詞語(yǔ)是否為實(shí)體,如果當(dāng)前詞語(yǔ)為實(shí)體則=1;否則,=0。

        對(duì)以上兩種損失函數(shù)進(jìn)行加權(quán)求和得到最終的損失函數(shù)形式,如公式(11):

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文使用Liu等收集并整理的中文新聞長(zhǎng)文本摘要數(shù)據(jù)集,該數(shù)據(jù)集收集了澎湃新聞網(wǎng)站自2014年7月22日至2020年4月20日之間發(fā)表的新聞文章以及由專業(yè)編輯編寫的摘要。共包含185397篇文章摘要對(duì),涵蓋政治、軍事、經(jīng)濟(jì)、娛樂(lè)等多個(gè)領(lǐng)域,并且在多個(gè)主流模型上測(cè)試都有較好的效果。

        3.2 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

        本實(shí)驗(yàn)在Ubuntu 18.04.4、GeForce RTX 2080的環(huán)境下進(jìn)行,實(shí)驗(yàn)?zāi)P驮赑ython 3.6.12、Pytorch 1.7.1的環(huán)境下進(jìn)行訓(xùn)練。輸入的詞向量為經(jīng)人民日?qǐng)?bào)語(yǔ)料庫(kù)訓(xùn)練的300維word2vec詞向量,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)的隱藏層大小為300維,編碼器端為雙層LSTM,解碼器端為單層LSTM,批訓(xùn)練大小為8,初始學(xué)習(xí)率為0.001,迭代次數(shù)為50000次,詞匯表大小為50000。在進(jìn)行實(shí)體識(shí)別時(shí)使用standfordnlp工具。實(shí)驗(yàn)在生成摘要時(shí)設(shè)置輸入句子的最大長(zhǎng)度為800,輸出摘要的最大長(zhǎng)度為100,采用束寬大小為4的束搜索來(lái)尋找解碼時(shí)的最優(yōu)結(jié)果。實(shí)驗(yàn)參數(shù)表如表1所示。

        表1 實(shí)驗(yàn)參數(shù)

        3.3 評(píng)價(jià)指標(biāo)

        本文使用文本摘要領(lǐng)域常用的ROUGE來(lái)對(duì)生成文本的可讀性進(jìn)行評(píng)價(jià),具體使用ROUGE-N(=1,2)和ROUGE-L。其中ROUGEN通過(guò)計(jì)算生成摘要和人工摘要元組的召回率來(lái)評(píng)估可讀性,具體計(jì)算公式如(12):

        其中{}為人工摘要,Count(gram)表示人工摘要和生成摘要的共有元組的個(gè)數(shù),(gram)表示參考摘要中元組的個(gè)數(shù)。

        ROUGE-L使用人工摘要和生成摘要的最長(zhǎng)公 共 子 序 列(Longest Common Subsequence,LSC)來(lái)衡量生成句子的可讀性。其具體計(jì)算公式如(13)—(15)所示:

        其中 ||表示生成摘要的長(zhǎng)度,||表示人工摘要的長(zhǎng)度,(,)表示人工摘要與生成摘要二者的最長(zhǎng)公共子序列的長(zhǎng)度,為精確率P與召回率R的比值。

        3.4 實(shí)驗(yàn)結(jié)果與分析

        為了確定損失函數(shù)中實(shí)體信息和可讀性信息所占的比例,本文首先對(duì)公式(11)中超參數(shù)的取值進(jìn)行了實(shí)驗(yàn),并最終確定以0.75作為后續(xù)實(shí)驗(yàn)中的取值,具體實(shí)驗(yàn)結(jié)果如圖2所示。

        圖2 超參數(shù)η實(shí)驗(yàn)結(jié)果

        如圖2所示,當(dāng)=0.75時(shí)所生成的摘要在ROUGE-1、ROUGE-2和ROUGE-L評(píng)分上都有著較好的效果。此外,從圖中還能觀察到,隨著的增大,即隨著損失函數(shù)中實(shí)體比例的上升,生成摘要的可讀性整體呈現(xiàn)先上升后下降的趨勢(shì)。這是由于隨著損失函數(shù)中實(shí)體比例的上升,模型將更加傾向于學(xué)習(xí)實(shí)體信息而削弱了對(duì)原文內(nèi)容的學(xué)習(xí),從而導(dǎo)致了可讀性得分的下降。

        另外,為了驗(yàn)證本文所提出方法的有效性,我們將多個(gè)模型在CLTS數(shù)據(jù)集上的效果進(jìn)行了對(duì)比,不同模型之間的ROUGE分?jǐn)?shù)對(duì)比如表2所示。

        表2 不同模型對(duì)比結(jié)果

        通過(guò)對(duì)表中的數(shù)據(jù)進(jìn)行分析可以得到以下結(jié)論:①總的來(lái)說(shuō),生成式模型得到的摘要的可讀性高于抽取式模型,這是由于傳統(tǒng)的抽取式模型有著較為簡(jiǎn)單的模型結(jié)構(gòu),并且在對(duì)原文內(nèi)容進(jìn)行抽取時(shí)由于缺乏了部分關(guān)鍵連接詞而導(dǎo)致可讀性較低。②本文所提出的模型在ROUGE-2和ROUGE-L評(píng)分上都取得了比其他模型更優(yōu)的結(jié)果,由此可以說(shuō)明本文所提出的方法在以恰當(dāng)?shù)谋壤肓藢?shí)體信息后,在摘要生成任務(wù)上有著更為優(yōu)異的表現(xiàn)。③通過(guò)對(duì)生成句子的分析,可以發(fā)現(xiàn)本文提出的模型能夠識(shí)別出更多的關(guān)鍵實(shí)體。

        4 結(jié)語(yǔ)

        本文針對(duì)中文新聞長(zhǎng)文本摘要中存在的可讀性以及事實(shí)準(zhǔn)確性方面的缺陷,在傳統(tǒng)的seq2seq模型的基礎(chǔ)上,提出了基于時(shí)序注意力和實(shí)體注意力融合的生成式摘要模型,并在損失函數(shù)中引入了實(shí)體信息,使模型在保證原有可讀性的基礎(chǔ)上能夠更進(jìn)一步地學(xué)習(xí)到事實(shí)信息,從而進(jìn)一步提高了自動(dòng)文摘的質(zhì)量。實(shí)驗(yàn)結(jié)果表明,本文所提出的模型在ROUGE評(píng)分上與其他模型相比較得到了顯著提升。下一步的研究工作是考慮如何將該算法從新聞?wù)I(lǐng)域遷移到其他領(lǐng)域,并進(jìn)一步降低模型消耗。

        猜你喜歡
        詞匯表可讀性注意力
        讓注意力“飛”回來(lái)
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        對(duì)增強(qiáng)吸引力可讀性引導(dǎo)力的幾點(diǎn)思考
        新聞傳播(2015年11期)2015-07-18 11:15:03
        淺談對(duì)提高黨報(bào)可讀性的幾點(diǎn)看法
        新聞傳播(2015年9期)2015-07-18 11:04:12
        巧妙提取英文詞匯表的純英文單詞
        電腦迷(2014年16期)2014-04-29 03:32:41
        在增強(qiáng)地方時(shí)政新聞可讀性上用足心思
        詞匯表
        詞匯表
        詞匯表
        亚洲中文字幕一二区精品自拍 | 一本一道久久综合久久| 男人和女人高潮免费网站| 国产精品无码久久久久久久久作品| 中文字幕色一区二区三区页不卡| 国产亚洲欧美精品永久| 熟女人妻一区二区三区| 97久久国产亚洲精品超碰热| 人妻体体内射精一区二区| 一本色综合亚洲精品蜜桃冫| 男女一级毛片免费视频看| 毛片av中文字幕一区二区| 国产成人精品人人做人人爽97| 天天爽夜夜爱| 亚洲区小说区图片区qvod伊 | 青青草是针对华人绿色超碰| 日韩在线 | 中文| 一本一道av无码中文字幕| 精品视频专区| 国产视频在线观看一区二区三区| 最新国产毛2卡3卡4卡| 免费无码国产v片在线观看| 久久精品视频按摩| 91成人黄色蘑菇视频| 国产精品久久国产精品99 | 无码av天堂一区二区三区| 成人动漫久久| 国产成人高清视频在线观看免费| 精人妻无码一区二区三区| 成人小说亚洲一区二区三区| 亚洲欧洲美洲无码精品va| 久久这里都是精品99| 日韩放荡少妇无码视频| 国产精品亚洲А∨天堂免下载| 日韩亚洲在线一区二区| 91盗摄偷拍一区二区三区| 无码人妻丰满熟妇啪啪网站| 一本大道香蕉最新在线视频| 青青草在线成人免费视频| 日本五十路人妻在线一区二区| 成人区人妻精品一区二区不卡网站|