亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向人民日?qǐng)?bào)語(yǔ)料的新聞自動(dòng)摘要生成

        2022-10-09 00:42:10梁媛王東波黃水清
        知識(shí)管理論壇 2022年4期
        關(guān)鍵詞:文本實(shí)驗(yàn)模型

        梁媛 王東波 黃水清

        1.南京農(nóng)業(yè)大學(xué)信息管理學(xué)院 南京 210095

        2.南京農(nóng)業(yè)大學(xué)人文與社會(huì)計(jì)算研究中心 南京 210095

        1 引言

        網(wǎng)絡(luò)信息的爆炸式增長(zhǎng)在使人們獲取信息更加便利的同時(shí),也帶來(lái)了信息利用效率低、閱讀成本過高等問題,而自動(dòng)摘要技術(shù)通過對(duì)信息的壓縮和精煉,為提高知識(shí)獲取效率提供了輔助手段[1],該技術(shù)的產(chǎn)生和發(fā)展使解決上述問題成為可能。目前,自動(dòng)摘要的主要方式有抽取式和生成式兩種,抽取式自動(dòng)摘要起步較早,經(jīng)過許多學(xué)者多年研究,該技術(shù)已較為成熟,而隨著機(jī)器學(xué)習(xí)引入到自動(dòng)摘要領(lǐng)域,生成式自動(dòng)摘要再一次迎來(lái)了發(fā)展的可能。

        新聞是記錄社會(huì)問題、傳播時(shí)代信息、獲取時(shí)事熱點(diǎn)的重要途徑,而《人民日?qǐng)?bào)》是中國(guó)共產(chǎn)黨中央委員會(huì)機(jī)關(guān)報(bào),是國(guó)家與人民溝通的主要媒介,也是國(guó)內(nèi)外文化交流的橋梁,因此,人民日?qǐng)?bào)語(yǔ)料的研究具有重要意義。本文實(shí)驗(yàn)語(yǔ)料來(lái)自新時(shí)代人民日?qǐng)?bào)語(yǔ)料庫(kù)(New Era People’s Daily Segmented Corpus,簡(jiǎn)稱NEPD)[2],NEPD中收錄的《人民日?qǐng)?bào)》文章經(jīng)過人工分詞和校對(duì),是具有良好可用性的精語(yǔ)料[3]。通過NEPD中的語(yǔ)料可快速便捷地計(jì)算詞語(yǔ)及其頻次,進(jìn)而進(jìn)行后續(xù)的數(shù)據(jù)預(yù)處理,完成相應(yīng)的文本處理任務(wù)。

        筆者結(jié)合人們新聞瀏覽趨勢(shì)的變化,針對(duì)大量新聞文本需要精煉的特征,面向人民日?qǐng)?bào)語(yǔ)料,實(shí)現(xiàn)抽取式新聞自動(dòng)摘要算法和生成式自動(dòng)摘要模型的構(gòu)建,并對(duì)摘要結(jié)果進(jìn)行評(píng)價(jià),進(jìn)而提高新聞信息使用效率,節(jié)省用戶閱讀成本,為文本自動(dòng)摘要技術(shù)及其評(píng)價(jià)方法提供思路。

        2 相關(guān)研究

        早期,莫燕[4]和王永成[5]介紹了自動(dòng)文獻(xiàn)摘要和自動(dòng)提取知識(shí)的思想和算法。之后,王永成和許慧敏[6]、王知津[7]分別提出并設(shè)計(jì)了OA中文文獻(xiàn)自動(dòng)摘要系統(tǒng)和基于句子選擇的自動(dòng)文本摘要系統(tǒng),并對(duì)中文文獻(xiàn)自動(dòng)摘要的歷史、發(fā)展和意義進(jìn)行了概述。史磊和王永成[8]則對(duì)英文文獻(xiàn)自動(dòng)摘要系統(tǒng)進(jìn)行了研究。

        在前人研究的基礎(chǔ)上,文本自動(dòng)摘要研究得以快速發(fā)展,各類算法推陳出新。熊嬌等[9]、張?bào)愕ず秃鷮W(xué)鋼[10]、劉星含和霍華[11]、紀(jì)文倩等[12]、曾哲軍[13]、劉靜和肖璐[14]分別采用圖模型、向量空間模型、互信息、連續(xù)LexRank算法、依存句法分析圖模型對(duì)文本進(jìn)行自動(dòng)摘要處理。王帥等[15]采用基于圖模型和循環(huán)神經(jīng)網(wǎng)絡(luò)模型兩階段的長(zhǎng)文本自動(dòng)摘要方法,在大規(guī)模金融長(zhǎng)文本數(shù)據(jù)上進(jìn)行了摘要生成實(shí)驗(yàn);吳云等[16]提高與標(biāo)題相似的特征詞的詞頻,進(jìn)而計(jì)算詞頻矩陣和句子相似度,得到了詞句協(xié)同的自動(dòng)摘要提取算法;陳晨等[17]應(yīng)用詞句協(xié)同排序提出了基于圖模型的自動(dòng)摘要算法;丁建立等[18]采用多維度詞嵌入模式,基于雙編碼器融入雙通道語(yǔ)義對(duì)短文本進(jìn)行自動(dòng)摘要任務(wù);馮讀娟等[19]同樣基于雙編碼器網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建了CGAtten-GRU模型,并在大規(guī)模中文短文本摘要中取得良好的效果;廖濤等[20]參考圖結(jié)構(gòu)表示提出了事件網(wǎng)絡(luò)表示文本中的事件關(guān)系,進(jìn)而進(jìn)行文本自動(dòng)摘要;徐馨韜等[21]改進(jìn)了TextRank算法,將Doc2Vec模型和K-means算法融入其中,優(yōu)化了主題句提取生成摘要的效果;陳海華等[22]將引文上下文內(nèi)容特征與支持向量機(jī)(support vector machine, SVM)模型融合,對(duì)學(xué)術(shù)文本進(jìn)行自動(dòng)摘要;黃水清等[23]根據(jù)計(jì)算機(jī)類文獻(xiàn)設(shè)計(jì)了該領(lǐng)域自動(dòng)文本摘要系統(tǒng);張晗和趙玉虹[24]則針對(duì)醫(yī)學(xué)文本,對(duì)文本及語(yǔ)義關(guān)系進(jìn)行規(guī)范化抽取和語(yǔ)義圖的構(gòu)建,以實(shí)現(xiàn)句子主題歸類,進(jìn)而生成摘要;陳志敏等[25]、李芳和何婷婷[26]則從信息檢索方面入手,基于用戶查詢擴(kuò)展及查詢文檔集合輔助生成摘要。

        在這些算法中,采用主題劃分、多特征融合算法的自動(dòng)摘要研究尤為突出。張哲銘等[27]提出了結(jié)合主題感知與通信代理的高質(zhì)量長(zhǎng)文本摘要模型,能夠生成主題突出的摘要結(jié)果;陳燕敏等[28]提出了一種融合主題與內(nèi)容的自動(dòng)摘要方法,并通過指代消解獲得具有良好的連貫性和流暢性的自動(dòng)摘要結(jié)果;羅芳等[29]改進(jìn)了圖模型方法,基于隱含狄利克雷分布(latent Dirichlet allocation,LDA)主題模型挖掘出的主題語(yǔ)義信息,將主題特征、統(tǒng)計(jì)特征和句間相似度等多維度對(duì)文本進(jìn)行度量和抽取,最終達(dá)到深層主題語(yǔ)義挖掘利用的目的,實(shí)現(xiàn)自動(dòng)摘要;杜秀英[30]針對(duì)大規(guī)模多文本摘要,構(gòu)建了基于聚類與語(yǔ)義相似分析的MapReduce自動(dòng)摘要架構(gòu),在時(shí)間性能、壓縮效果和摘要質(zhì)量上都有一定的提升。但以上方法和模型主要集中于抽取式自動(dòng)摘要的研究,而對(duì)于生成式自動(dòng)摘要仍有較大的研究空間。

        隨著大數(shù)據(jù)和人工智能技術(shù)的迅猛發(fā)展,傳統(tǒng)自動(dòng)文摘研究正朝著從抽取式摘要到生成式摘要的方向演化,從而達(dá)到生成更高質(zhì)量的自然流暢的文摘的目的。近年來(lái),深度學(xué)習(xí)技術(shù)逐漸被應(yīng)用于生成式摘要研究中。吳世鑫等[31]基于帶注意力、Pointer機(jī)制和Coverage機(jī)制的Sequence-to-Sequence模型引入語(yǔ)義對(duì)齊的神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)生成式自動(dòng)摘要模型的構(gòu)建;方旭等[32]提出了一種結(jié)合核心詞修正的長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)算法自動(dòng)生成中文短文本摘要;唐曉波和翟夏普[33]改進(jìn)了PageRank算法,并采用句子向量化、分類器分類、句群劃分和句子重組混合機(jī)器學(xué)習(xí)模型進(jìn)行多文檔自動(dòng)摘要研究;譚金源等[34]和張克君等[35]融合多個(gè)深度學(xué)習(xí)模型分別提出了Bi-MulRnn+和BERT-指針生成網(wǎng)絡(luò)BERT-PGN生成式自動(dòng)摘要模型,有效改善了生成式摘要的準(zhǔn)確性和流暢度;李維勇等[36]、肖元君和吳國(guó)文[37]也都進(jìn)行了基于深度學(xué)習(xí)的中文生成式自動(dòng)摘要模型的研究與實(shí)現(xiàn)。

        逐漸加快的生活節(jié)奏不斷改變著人們的閱讀習(xí)慣,人們從紙質(zhì)書籍、報(bào)刊轉(zhuǎn)向電子化閱讀,閱讀的新聞也逐漸轉(zhuǎn)為短文本,因此,新聞媒體以及讀者對(duì)于新聞?wù)詣?dòng)化的需求也隨之增大。官禮和[38]分析了中文網(wǎng)絡(luò)新聞自動(dòng)摘要的思路和流程,并通過實(shí)驗(yàn)進(jìn)行了分析佐證;韓永峰等[39]探討了自動(dòng)摘要中信息冗余的問題,并提出了基于事件抽取的網(wǎng)絡(luò)新聞多文檔自動(dòng)摘要的改進(jìn)方法;沈洲等[40]建立了新聞文獻(xiàn)主題提取規(guī)則庫(kù),構(gòu)建了面向新聞文獻(xiàn)基于規(guī)則的自動(dòng)摘要系統(tǒng);李孟爽等[41]提出的自動(dòng)摘要算法是基于互信息對(duì)文本詞句語(yǔ)義特征的計(jì)算結(jié)果,并據(jù)此進(jìn)行主題劃分,抽取出關(guān)鍵句生成最終的文本摘要;王凱祥和任明[42]為滿足用戶查詢的信息需求,設(shè)計(jì)了基于查詢的新聞自動(dòng)摘要算法,還與TFIDF、TextRank、LDA等6種方法進(jìn)行了對(duì)比實(shí)驗(yàn);黃小江等[43]基于協(xié)同圖排序模型自動(dòng)生成了新聞話題的對(duì)比摘要,具有很強(qiáng)的新穎性;柯修和王惠臨[44]則融合多種算法,包括指代消解、文本外部特征和圖排序方法,實(shí)現(xiàn)了漢語(yǔ)、英語(yǔ)、孟加拉語(yǔ)3個(gè)語(yǔ)種的多文檔新聞自動(dòng)摘要;葉雷等[45]同樣采用圖排序方法,提出了多特征融合的漢越雙語(yǔ)新聞?wù)椒?,能夠自?dòng)獲取同一事件的漢越雙語(yǔ)新聞?wù)?。除新聞外,如微博、論壇等用戶自主生成?nèi)容中的信息也擁有巨大的研究?jī)r(jià)值,而自動(dòng)摘要是獲取這類重要信息的一種手段,但這些短文本高冗余、高噪聲等特征對(duì)于自動(dòng)摘要造成較大的影響[46],學(xué)者們[47-50]也在為解決這一問題作出不懈努力。

        通過對(duì)上述文獻(xiàn)的梳理可以發(fā)現(xiàn),從基于規(guī)則、基于統(tǒng)計(jì)到后來(lái)的深度學(xué)習(xí),從普通文本到動(dòng)態(tài)視頻,自動(dòng)摘要技術(shù)的研究正隨著技術(shù)的進(jìn)步和用戶的需求不斷更迭發(fā)展著。而新聞自動(dòng)摘要一直具有重要意義,其能夠在很大程度上滿足人們快節(jié)奏生活中的新聞獲取。但目前新聞自動(dòng)摘要的應(yīng)用型研究主要集中在新聞的抽取式自動(dòng)摘要上,而對(duì)于生成式自動(dòng)摘要尚未有領(lǐng)域性、準(zhǔn)確性較強(qiáng)的模型和系統(tǒng)。因此,筆者面向人民日?qǐng)?bào)語(yǔ)料展開自動(dòng)摘要的研究,通過傳統(tǒng)算法和深度學(xué)習(xí)算法完成自動(dòng)摘要任務(wù),旨在根據(jù)當(dāng)前主流新聞媒體的文本特征構(gòu)建自動(dòng)摘要模型,解決用戶閱讀長(zhǎng)文本新聞耗時(shí)長(zhǎng)、信息利用率低的問題,同時(shí)也為新聞媒體的知識(shí)聚合服務(wù)提供幫助,為新聞傳播、文化傳承提供新思路。

        3 算法模型介紹

        自然語(yǔ)言處理(natural language processing,NLP)作為一個(gè)傳統(tǒng)研究領(lǐng)域,自其產(chǎn)生始終熱度不減,其中緣由不只是新技術(shù)的誕生和引入,也因NLP有“最困難的人工智能子領(lǐng)域”之名。其中的自動(dòng)摘要任務(wù)也是研究者們不斷研究、突破的主要難點(diǎn)之一,特別是在快速閱讀成為人們生活中非常重要的閱讀方式的前提下。目前,自動(dòng)摘要方法按生成方式主要分為抽取式自動(dòng)摘要和生成式自動(dòng)摘要,抽取式自動(dòng)摘要主要應(yīng)用關(guān)鍵詞句排序的思想,而生成式自動(dòng)摘要更多是基于深度學(xué)習(xí)模型來(lái)完成。在本文的實(shí)驗(yàn)中,抽取式自動(dòng)摘要主要運(yùn)用了關(guān)鍵詞確定句子權(quán)重和TextRank等傳統(tǒng)算法的思想,生成式自動(dòng)摘要?jiǎng)t參考了基于指針生成網(wǎng)絡(luò)構(gòu)建的面向中文的Text-Summarizer-Pytorh-Chinese模型[50]及其思路。

        3.1 抽取式自動(dòng)摘要

        本研究中的抽取式自動(dòng)摘要主要采用的是按詞頻和簇確定關(guān)鍵詞,再通過關(guān)鍵詞對(duì)所在句打分,分?jǐn)?shù)排序確定最終生成摘要的句子。這種方法源自IBM公司H. P. Luhn的一篇文章The Automatic Creation of Literature Abstracts[51],他提出用簇(cluster)表示關(guān)鍵詞的聚類結(jié)果,這里的簇即包含多個(gè)關(guān)鍵詞的句子片段,如圖1所示:

        圖1 關(guān)鍵詞簇聚類示意圖

        簇權(quán)重的計(jì)算公式[52]如下:

        其中,簇長(zhǎng)指句子片段中所包含詞語(yǔ)的數(shù)量,以本研究中的部分人民日?qǐng)?bào)語(yǔ)料為例:

        “經(jīng)過全國(guó)各族人民共同努力,‘十二五’規(guī)劃圓滿收官,廣大人民群眾有了更多獲得感”,

        分詞后語(yǔ)料實(shí)例為:

        “經(jīng)過/全國(guó)/各族/人民/共同/努力/,/‘/十二五/’/規(guī)劃/圓滿/收官/,/廣大/人民/群眾/有/了/更/多/獲得感”,

        設(shè)“‘十二五’規(guī)劃圓滿收官”為一簇,簇長(zhǎng)為6,“十二五”“規(guī)劃”“收官”為關(guān)鍵詞,“廣大人民群眾有了更多獲得感”為另一簇,簇長(zhǎng)為8,關(guān)鍵詞為“人民”“群眾”“獲得感”,則兩簇權(quán)重分別為32/6=1.5和32/8=1.125。按權(quán)重對(duì)文本包含的句子進(jìn)行排序,確定抽取閾值(本文設(shè)定的閾值為10,即抽出重要性最高的前10個(gè)句子),將這10個(gè)句子整合,即為該文本的自動(dòng)摘要。類似TextRank算法,該算法源于PageRank算法,相當(dāng)于將網(wǎng)頁(yè)替換為句子,通過句子相似度矩陣以及設(shè)定的閾值來(lái)獲得得分較高的句子作為自動(dòng)摘要結(jié)果,這是一種無(wú)監(jiān)督的抽取式自動(dòng)摘要。

        3.2 生成式自動(dòng)摘要

        指針生成網(wǎng)絡(luò)(pointer-generator network)的自動(dòng)摘要任務(wù)原理見圖2。該模型能夠通過自注意力機(jī)制集中于文本中的重要詞匯,并由此生成新詞匯。同時(shí),它不是通過復(fù)制原詞來(lái)生成摘要,而是權(quán)衡詞表中詞匯的概率、詞匯分布以及注意力分布來(lái)確定候選詞的權(quán)重并獲得最終分布情況。

        圖2 指針生成網(wǎng)絡(luò)自動(dòng)摘要原理圖示[53]

        目前,面向中文的基于指針生成網(wǎng)絡(luò)自動(dòng)摘要的模型較少,因此,筆者參考Text-Summarizer-Pytorch-Chinese的 構(gòu) 建 思 路,將預(yù)訓(xùn)練語(yǔ)料調(diào)整為NEPD語(yǔ)料,詞表也針對(duì)NEPD語(yǔ)料進(jìn)行了更新,之后再進(jìn)行預(yù)訓(xùn)練和模型構(gòu)建。

        4 面向人民日?qǐng)?bào)語(yǔ)料的新聞自動(dòng)摘要生成實(shí)驗(yàn)

        “《人民日?qǐng)?bào)》是一張權(quán)威、嚴(yán)肅的綜合性日?qǐng)?bào),憑借其采編力量對(duì)新聞事件做出反應(yīng),報(bào)道國(guó)內(nèi)外重大事件”[54]。作為耳目與喉舌、橋梁和紐帶的主流媒體,其文本信息價(jià)值不言而喻,人民日?qǐng)?bào)語(yǔ)料一直以來(lái)也是研究者們的重要數(shù)據(jù)來(lái)源,其中,北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所構(gòu)建的人民日?qǐng)?bào)語(yǔ)料庫(kù)[55]是我國(guó)第一個(gè)大型的現(xiàn)代漢語(yǔ)標(biāo)注語(yǔ)料庫(kù),之后,南京農(nóng)業(yè)大學(xué)人文與社會(huì)計(jì)算研究中心在2019年對(duì)2015年至2018年《人民日?qǐng)?bào)》發(fā)表的文章進(jìn)行加工處理,構(gòu)建了新時(shí)代人民日?qǐng)?bào)語(yǔ)料庫(kù)(NEPD)[56]。本研究以NEPD中2015年1月、2015年6月和2016年1月3個(gè)月的語(yǔ)料為實(shí)驗(yàn)對(duì)象展開研究,原始語(yǔ)料如圖3所示:

        圖3 NEPD原始語(yǔ)料截圖示例

        4.1 數(shù)據(jù)預(yù)處理

        根據(jù)本研究需要,筆者將每篇新聞從源語(yǔ)料中分割出來(lái),處理后的文本見圖4,為之后的摘要抽取和生成做準(zhǔn)備。經(jīng)過數(shù)據(jù)清洗(同時(shí)清洗了未生成標(biāo)準(zhǔn)摘要的數(shù)據(jù)),獲得2015年1月新聞2 628條、2015年6月新聞916條、2016年1月新聞2 748條,共計(jì)6 292條數(shù)據(jù),本研究將以上述數(shù)據(jù)作為研究對(duì)象進(jìn)行自動(dòng)摘要研究。

        圖4 單篇新聞截圖示例

        4.2 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

        本實(shí)驗(yàn)中生成式自動(dòng)摘要模型訓(xùn)練及測(cè)試時(shí)采用的操作系統(tǒng)為ubuntu 16.04,內(nèi)存為16GB DDR4,顯 存 為4GB GDDR5,CPU為Intel(R) Core(TM) i5-4590 CPU @ 3.30GHz,GPU型號(hào)為NVIDIA Quadro K1200。生成式自動(dòng)摘要模型參數(shù)設(shè)置如表1所示。

        表1 生成式自動(dòng)摘要模型參數(shù)設(shè)置

        4.3 實(shí)驗(yàn)流程

        本研究主要分為兩個(gè)部分:面向人民日?qǐng)?bào)語(yǔ)料的新聞抽取式自動(dòng)摘要算法(以下簡(jiǎn)稱“抽取式自動(dòng)摘要算法”)研究,以及面向人民日?qǐng)?bào)語(yǔ)料的新聞生成式自動(dòng)摘要模型(以下簡(jiǎn)稱“生成式自動(dòng)摘要模型”)構(gòu)建。

        在抽取式自動(dòng)摘要算法實(shí)驗(yàn)中,主要包括以下8個(gè)步驟:①人民日?qǐng)?bào)分詞語(yǔ)料獲??; ②待摘要文本預(yù)處理:包括去除特殊字符和空格空行等;③去停用詞和詞頻統(tǒng)計(jì):由于本研究選用的NEPD語(yǔ)料為精校過的分詞語(yǔ)料,因此,不需要進(jìn)行分詞處理,在去停用詞后直接進(jìn)行詞頻統(tǒng)計(jì)即可;④計(jì)算句子權(quán)重:參考特征包括標(biāo)題關(guān)鍵詞信息、句子長(zhǎng)度等特征; ⑤根據(jù)權(quán)重對(duì)句子進(jìn)行排序;⑥選定合適的閾值提取摘要句;⑦生成摘要;⑧根據(jù)標(biāo)準(zhǔn)摘要對(duì)自動(dòng)摘要進(jìn)行評(píng)價(jià)(評(píng)價(jià)指標(biāo)包括Rouge-1、Rouge-2和Rouge-L)。

        生成式自動(dòng)摘要模型構(gòu)建過程主要包括以下7個(gè)步驟:①人民日?qǐng)?bào)分詞語(yǔ)料獲??;②待摘要文本預(yù)處理:去除特殊字符和空格空行等,并根據(jù)模型要求調(diào)整訓(xùn)練語(yǔ)料格式;③預(yù)訓(xùn)練模型構(gòu)建:將步驟②中的語(yǔ)料進(jìn)行預(yù)訓(xùn)練,得到具有《人民日?qǐng)?bào)》特色的預(yù)訓(xùn)練模型;④加入特征:根據(jù)NEPD分詞語(yǔ)料統(tǒng)計(jì)關(guān)鍵詞,并作為自定義詞表引入到模型訓(xùn)練中,同時(shí)加入標(biāo)題特征;⑤生成式自動(dòng)摘要模型訓(xùn)練:根據(jù)訓(xùn)練過程及結(jié)果調(diào)整參數(shù)并進(jìn)行迭代訓(xùn)練;⑥根據(jù)最終模型生成摘要;⑦根據(jù)標(biāo)準(zhǔn)摘要對(duì)自動(dòng)摘要進(jìn)行評(píng)價(jià)(評(píng)價(jià)指標(biāo)包括Rouge-1、Rouge-2和Rouge-L)。

        5 實(shí)驗(yàn)結(jié)果評(píng)價(jià)與分析

        由于目前尚無(wú)針對(duì)人民日?qǐng)?bào)語(yǔ)料的摘要標(biāo)準(zhǔn)語(yǔ)料庫(kù),因此,筆者在對(duì)自動(dòng)摘要實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)時(shí),分別以關(guān)鍵詞詞頻抽取式自動(dòng)摘要結(jié)果和百度智能云的新聞?wù)涌诘姆治鼋Y(jié)果作為標(biāo)準(zhǔn)摘要集合。百度智能云的新聞?wù)腔谏疃日Z(yǔ)義分析模型自動(dòng)抽取文本,能夠根據(jù)文本中的關(guān)鍵信息進(jìn)一步生成指定長(zhǎng)度的新聞?wù)猍57]。

        以本文選取的人民日?qǐng)?bào)語(yǔ)料為例:

        標(biāo)準(zhǔn)摘要(關(guān)鍵詞詞頻抽取式自動(dòng)摘要):

        “恐怖主義是國(guó)際社會(huì)公敵,中國(guó)歷來(lái)反對(duì)一切形式的恐怖主義,積極參與國(guó)際反恐合作。軍隊(duì)和武警部隊(duì)出境執(zhí)行反恐任務(wù),要遵守《聯(lián)合國(guó)憲章》的宗旨和原則,遵循國(guó)際關(guān)系準(zhǔn)則,并充分尊重當(dāng)事國(guó)的主權(quán)。至于今后軍隊(duì)和武警部隊(duì)是否赴境外反恐,將根據(jù)國(guó)家統(tǒng)一部署作出安排?!?/p>

        自動(dòng)摘要(面向人民日?qǐng)?bào)語(yǔ)料的抽取式自動(dòng)摘要):

        “中國(guó)軍隊(duì)和武警部隊(duì)赴境外反恐將根據(jù)國(guó)家統(tǒng)一部署作出安排,軍隊(duì)和武警部隊(duì)出境執(zhí)行反恐任務(wù),要遵守《聯(lián)合國(guó)憲章》的宗旨和原則,遵循國(guó)際關(guān)系準(zhǔn)則,并充分尊重當(dāng)事國(guó)的主權(quán)。至于今后軍隊(duì)和武警部隊(duì)是否赴境外反恐,將根據(jù)國(guó)家統(tǒng)一部署作出安排?!?/p>

        標(biāo)準(zhǔn)摘要(百度智能云新聞?wù)?/p>

        “據(jù)報(bào)道,在河南省南陽(yáng)市鎮(zhèn)平縣城郊鄉(xiāng)的大劉營(yíng)村,因當(dāng)?shù)匚廴緡?yán)重,懷孕的村民只能離村待產(chǎn)。媒體曝光之后,當(dāng)?shù)匾呀?jīng)責(zé)令涉事企業(yè)停產(chǎn)整治,并且問責(zé)環(huán)保部門領(lǐng)導(dǎo)。村民以這種方式遠(yuǎn)離環(huán)境污染,映射出對(duì)美好生態(tài)環(huán)境的要求底線,更映射出惡意排污的現(xiàn)實(shí)和環(huán)保執(zhí)法的缺位。讓我們的后代成長(zhǎng)在美好的環(huán)境中,這是我們對(duì)子孫后代的責(zé)任。”

        自動(dòng)摘要(面向人民日?qǐng)?bào)語(yǔ)料的生成式自動(dòng)摘要):

        “重慶的不會(huì)愿意折騰到外村村民村民以這種方式遠(yuǎn)離環(huán)境污染映射出對(duì)美好的生態(tài)環(huán)境?!?/p>

        5.1 評(píng)價(jià)指標(biāo)

        Rouge(recall-oriented understudy for gisting evaluation)是評(píng)估自動(dòng)摘要、機(jī)器翻譯等自然語(yǔ)言處理任務(wù)的常用指標(biāo),它是將標(biāo)準(zhǔn)摘要和自動(dòng)生成摘要進(jìn)行相似度計(jì)算,得到的數(shù)值即為評(píng)價(jià)結(jié)果,計(jì)算公式如下[58]:

        其中,分母為n-gram個(gè)數(shù),分子為標(biāo)準(zhǔn)摘要和自動(dòng)摘要共有的n-gram個(gè)數(shù)。例如,Rouge-1中的分子是自動(dòng)摘要和標(biāo)準(zhǔn)摘要中均出現(xiàn)的1-gram的個(gè)數(shù),分子是標(biāo)準(zhǔn)摘要的1-gram個(gè)數(shù)。筆者選取的評(píng)價(jià)指標(biāo)為Rouge-1、Rouge-2和Rouge-L,Rouge-L是 指 運(yùn) 用LCS(longest common subsequence,最長(zhǎng)公共子序列)計(jì)算的Rouge評(píng)測(cè)指標(biāo),計(jì)算公式分別為:

        其中,LCS(X,Y)是X和Y的最長(zhǎng)公共子序列的長(zhǎng)度,m和n分別表示標(biāo)準(zhǔn)摘要和自動(dòng)摘要的長(zhǎng)度(通常為詞語(yǔ)個(gè)數(shù)),Rlcs和Plcs分別表示召回率和準(zhǔn)確率。B的數(shù)值通常較大,導(dǎo)致Rouge-L幾乎只考慮召回率Rlcs,這與Rouge-N相同。

        此外,上述3種Rouge評(píng)測(cè)指標(biāo)內(nèi)部運(yùn)用的P、R、F為準(zhǔn)確率(Precision)、召回率(Recall)、F值(F-Measure)。具體計(jì)算公式分貝如下:

        5.2 實(shí)驗(yàn)結(jié)果

        在抽取式自動(dòng)摘要實(shí)驗(yàn)中,本研究分別通過詞頻和簇聚類抽取關(guān)鍵詞的方式對(duì)句子進(jìn)行打分,并按分?jǐn)?shù)對(duì)句子進(jìn)行排序,進(jìn)而抽取出相應(yīng)的摘要結(jié)果。將詞頻抽取式自動(dòng)摘要結(jié)果作為標(biāo)準(zhǔn)摘要,將簇聚類抽取式自動(dòng)摘要作為自動(dòng)摘要結(jié)果并與標(biāo)準(zhǔn)摘要進(jìn)行Rouge評(píng)測(cè),部分摘要結(jié)果截圖如圖5所示:

        圖5 自動(dòng)摘要實(shí)驗(yàn)結(jié)果示例

        全部自動(dòng)摘要的綜合評(píng)測(cè)結(jié)果見表2。通過表2可以看出,整體上抽取式自動(dòng)摘要實(shí)驗(yàn)結(jié)果抽取效果良好(均值:Rouge-1=0.8447,Rouge-2=0.8257,Rouge-L=0.8446),能夠?qū)υ颊Z(yǔ)料進(jìn)行大致概括。由于在抽取式自動(dòng)摘要實(shí)驗(yàn)中,標(biāo)準(zhǔn)摘要同樣為自動(dòng)生成,且在Rouge指標(biāo)計(jì)算相似度的過程中,一旦抽取出的語(yǔ)句與標(biāo)準(zhǔn)摘要不同,則兩個(gè)對(duì)應(yīng)的完整長(zhǎng)句相似度將會(huì)極低,這可能會(huì)導(dǎo)致Rouge指標(biāo)明顯偏低的問題出現(xiàn)。因此,筆者將會(huì)在未來(lái)的研究中一方面調(diào)整標(biāo)準(zhǔn)摘要的準(zhǔn)確度,另一方面完善自動(dòng)摘要的評(píng)價(jià)方法。

        表2 抽取式自動(dòng)摘要實(shí)驗(yàn)評(píng)測(cè)結(jié)果

        在生成式自動(dòng)摘要實(shí)驗(yàn)中,本研究將全部新聞?wù)Z料進(jìn)行預(yù)處理,接入百度智能云新聞?wù)涌?,獲取相應(yīng)的自動(dòng)摘要結(jié)果,由于該平臺(tái)輸入文本長(zhǎng)度有限,因此,筆者經(jīng)過代碼篩選,共獲得7 967條符合文本長(zhǎng)度限制的新聞文本。另外,由于本文擬構(gòu)建的指針生成網(wǎng)絡(luò)模型需要大規(guī)模訓(xùn)練語(yǔ)料,遂將2015年1月、2015年6月和2016年1月3個(gè)月的原始語(yǔ)料合并后再繼續(xù)進(jìn)行實(shí)驗(yàn)。

        對(duì)語(yǔ)料進(jìn)行預(yù)處理后,將原始文本和標(biāo)準(zhǔn)摘要(百度智能云生成摘要)匹配并輸入指針生成網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練和測(cè)試。筆者在模型訓(xùn)練過程中引入了自定義詞表,該詞表由NEPD分詞語(yǔ)料生成,能夠提高自動(dòng)摘要模型的訓(xùn)練效果,以及生成摘要的流暢度和貼合度。在結(jié)果評(píng)價(jià)階段,筆者在生成式自動(dòng)摘要實(shí)驗(yàn)中采用的同樣是Rouge指標(biāo)進(jìn)行評(píng)價(jià),評(píng)測(cè)結(jié)果如表3所示:

        表3 生成式自動(dòng)摘要實(shí)驗(yàn)評(píng)測(cè)結(jié)果

        以本研究生成結(jié)果的其中一組數(shù)據(jù)為例(見表4),不同算法或模型生成的摘要內(nèi)容有一定的差別,但總體上流暢度問題較小,可讀性有一定的差別。抽取式自動(dòng)摘要由于單句抽取自人民日?qǐng)?bào)原文,因此句子內(nèi)部可讀性高于生成式摘要,句間連貫性低于生成式摘要。從摘要內(nèi)容整體上看,抽取式摘要包含的內(nèi)容更豐富,但概括能力較差,內(nèi)容冗余,句子間關(guān)聯(lián)度較低;而生成式自動(dòng)摘要有一定的語(yǔ)義理解能力,生成的摘要內(nèi)容更簡(jiǎn)練,相對(duì)比較符合新聞?wù)奶卣鳎瑢?duì)原始語(yǔ)料的總結(jié)更靈活,但會(huì)出現(xiàn)個(gè)別詞匯重復(fù)、摘要內(nèi)容不全面等問題。

        表4 面向《人民日?qǐng)?bào)》的新聞自動(dòng)摘要生成結(jié)果樣例

        本研究選用的評(píng)測(cè)指標(biāo)為Rouge指標(biāo),這種評(píng)價(jià)方式雖然直觀簡(jiǎn)潔并且能夠在一定程度上反映詞序和摘要效果,但該指標(biāo)區(qū)分度不高,特別是Rouge-N中N>3時(shí),指標(biāo)數(shù)值通常較小[58],對(duì)結(jié)果評(píng)價(jià)有較大影響。除此之外,Rouge指標(biāo)主要是根據(jù)文本相似度對(duì)標(biāo)準(zhǔn)摘要和自動(dòng)摘要進(jìn)行對(duì)比,同時(shí),它具有一定的獎(jiǎng)勵(lì)機(jī)制,會(huì)給予原始表達(dá)(詞匯)更高的分?jǐn)?shù)[53],這就導(dǎo)致在同一篇新聞中,通常抽取式自動(dòng)摘要的分?jǐn)?shù)會(huì)高于生成式自動(dòng)摘要。因此,這種計(jì)算方式有一定的局限性,特別是對(duì)于生成式自動(dòng)摘要而言更是如此。筆者將在后續(xù)研究中嘗試多種評(píng)價(jià)方式對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行綜合測(cè)評(píng),主要包括人工生成摘要數(shù)據(jù),將其作為標(biāo)準(zhǔn)摘要數(shù)據(jù)集,或通過對(duì)生成的自動(dòng)摘要人工打分的方式進(jìn)行評(píng)價(jià),以求得到更準(zhǔn)確的評(píng)價(jià)結(jié)果。

        6 結(jié)語(yǔ)

        自動(dòng)摘要是將長(zhǎng)文本提煉為簡(jiǎn)潔精煉的短文本的過程,能夠幫助人們快速瀏覽文本資源并知曉文章大意,節(jié)省閱讀成本的同時(shí),也提高了知識(shí)利用效率,特別是在信息資源日益龐大的當(dāng)下,自動(dòng)摘要技術(shù)的需求更是與日俱增。筆 者 以NEPD中2015年1月、2015年6月 和2016年1月3個(gè)月的人民日?qǐng)?bào)分詞語(yǔ)料作為實(shí)驗(yàn)語(yǔ)料,根據(jù)新聞文本特征,面向人民日?qǐng)?bào)語(yǔ)料設(shè)計(jì)了基于關(guān)鍵詞詞頻排序和關(guān)鍵詞簇排序的抽取式自動(dòng)摘要算法,并構(gòu)建了基于指針生成網(wǎng)絡(luò)的生成式自動(dòng)摘要模型,均在Rouge測(cè)評(píng)中取得了良好的實(shí)驗(yàn)結(jié)果,生成的摘要結(jié)果具有較好的完整性。筆者將在接下來(lái)的研究中完善算法,改進(jìn)模型,增強(qiáng)模型的復(fù)用性,并對(duì)評(píng)價(jià)方法做出改進(jìn),加入文本內(nèi)外部多個(gè)特征,增加人工生成標(biāo)準(zhǔn)摘要數(shù)據(jù)集和人工打分的環(huán)節(jié),以提高自動(dòng)摘要的流暢性和可讀性。

        猜你喜歡
        文本實(shí)驗(yàn)模型
        一半模型
        記一次有趣的實(shí)驗(yàn)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        日本黄页网站免费大全| 亚洲av成人综合网成人| 国产xxx69麻豆国语对白| 成人h动漫精品一区二区| 啪啪网站免费观看| 少妇太爽高潮在线播放| 国产精品国产三级国产aⅴ下载| 日韩少妇内射免费播放| Y111111国产精品久久久| 亚洲精品在线观看自拍| 成年女人免费v片| 男人扒开女人下面狂躁小视频| 啪啪视频一区二区三区入囗| 青青草成人免费播放视频| 久久精品夜色噜噜亚洲a∨| 欧美激情a∨在线视频播放| 国产一区二区欧美丝袜| 亚洲精品一区二区成人精品网站| 一本色道久久爱88av| 两个黑人大战嫩白金发美女| 亚洲av网一区天堂福利| 美女用丝袜脚玩我下面| 日韩激情无码免费毛片| 无夜精品久久久久久| 国产精品亚洲精品专区| 亚洲无av在线中文字幕| 国产手机在线αⅴ片无码观看| 亚洲人成网站在线播放小说| 日本a级免费大片网站| 性色做爰片在线观看ww| 亚洲电影中文字幕| 亚洲av网一区二区三区成人| 人妻少妇乱子伦无码视频专区| 最好看2019高清中文字幕视频| 国产伦理自拍视频在线观看| 国产成人自拍高清在线| 300部国产真实乱| 久久国产精品超级碰碰热| 国产亚洲91精品色在线| 日本三级欧美三级人妇视频黑白配| 国产偷国产偷高清精品|