亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于M-C-G神經(jīng)網(wǎng)絡(luò)的多文檔自動(dòng)摘要方法

        2020-12-01 03:15:00高陽閆仁武袁雙雙
        軟件導(dǎo)刊 2020年10期
        關(guān)鍵詞:特征融合深度學(xué)習(xí)

        高陽 閆仁武 袁雙雙

        摘 要:為解決海量數(shù)據(jù)導(dǎo)致用戶信息過載問題,通過分析人民網(wǎng)、新浪網(wǎng)等網(wǎng)站的新聞網(wǎng)頁數(shù)據(jù),將傳統(tǒng)方法與深度學(xué)習(xí)方法相結(jié)合,提出基于特征融合、CNN和GRU的多文檔摘要方法(M-C-G)。首先對30種不同主題的新聞網(wǎng)頁進(jìn)行數(shù)據(jù)清洗,使用word2vec工具訓(xùn)練詞向量模型,根據(jù)多種特征計(jì)算得到初步摘要結(jié)果;然后把8.3萬條搜狐新聞?wù)Z料文本數(shù)據(jù)輸入帶有CNN和GRU的Seq2Seq模型上訓(xùn)練;最后把初步摘要結(jié)果輸入模型進(jìn)行測試,得到最終摘要結(jié)果。實(shí)驗(yàn)結(jié)果表明,在ROUGE評測體系中采用該方法比現(xiàn)有方法準(zhǔn)確率至少提高約2%,可有效幫助用戶尋找有價(jià)值的文本信息。

        關(guān)鍵詞:特征融合;深度學(xué)習(xí);Seq2Seq;CNN;GRU;文本摘要

        DOI:10. 11907/rjdk. 201249

        中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)010-0039-07

        Abstract: In order to solve the problem of user information overload caused by massive data, this paper analyzed news data from news websites such as Peoples Daily and Sina.com. After combining traditional methods and deep learning methods, multi-document summarization method(named M-C-G) based on multi-feature fusion, convolutional neural networks(CNN) and gated recurrent unit(GRU) was proposed. First, the news text data of 30 different topics was cleaned. And the word2vec was used to train the word vector model. The preliminary summary results were calculated based on various characteristics. Then 83,000 SOHU news text data were used into a Seq2Seq model with CNN and GRU for training. Finally, the final summary results were obtained based on the preliminary summary results which were tested into the model. Experimental results show that the method in the ROUGE evaluation system is at least about 2% higher than existing methods and can effectively help users find valuable text information.

        Key Words: multi-feature fusion; deep learning; Seq2Seq; CNN; GRU; test summarization

        0 引言

        根據(jù)中國互聯(lián)網(wǎng)協(xié)會(huì)2019年發(fā)表的《互聯(lián)網(wǎng)發(fā)展報(bào)告》,截至2018 年底,我國網(wǎng)站總數(shù)達(dá)523 萬個(gè),網(wǎng)頁數(shù)量2 816 億個(gè)。CNNIC研究資料顯示,截至2019年6月,我國網(wǎng)絡(luò)新聞?dòng)脩粢?guī)模達(dá)6.86億。網(wǎng)絡(luò)在帶給人們豐富信息資源的同時(shí),也帶來大量冗余及片面信息。除此之外,部分網(wǎng)絡(luò)媒體通過制造“標(biāo)題黨”以達(dá)到提升點(diǎn)擊率的目的,使用戶難以從中獲得正確信息。在用戶信息過載情況下,如何有效篩選出重要信息成為當(dāng)今熱點(diǎn)話題,從海量信息中獲取關(guān)鍵信息的效率成為關(guān)鍵問題。文本摘要需求的增長,使自然語言處理(NLP)技術(shù)不可或缺,具有十分重要的研究意義和實(shí)用價(jià)值。

        摘要在日常生活中經(jīng)常使用,比如常見的電視新聞?lì)^條、書評等[1]。自動(dòng)摘要是自然語言處理技術(shù)的一個(gè)分支,它可優(yōu)化文檔格式[2]。在信息過度飽和的今天,人們可以使用文本摘要技術(shù)從海量文本信息中提取重要部分,實(shí)現(xiàn)文本信息的提煉與總結(jié)[3],更好地解決用戶信息過載問題,提高用戶獲取關(guān)鍵信息效率。隨著計(jì)算機(jī)軟硬件的更新?lián)Q代,神經(jīng)網(wǎng)絡(luò)在自然語言處理領(lǐng)域突飛猛進(jìn),基于深度學(xué)習(xí)的模型方法在NLP取得非常好的實(shí)驗(yàn)效果。

        1958年Luhn[4]提出自動(dòng)摘要技術(shù)概念,利用文檔中詞的詞頻和詞的分布得到相關(guān)句子,從而實(shí)現(xiàn)自動(dòng)摘要技術(shù);1961年Edmundson等 [5]在統(tǒng)計(jì)基礎(chǔ)上加入詞性、句子位置和文章標(biāo)題等因素,提出基于綜合因素的自動(dòng)摘要,指出線索詞[6]對句子的重要性,包括“幾乎不、不可能、顯著地”等等;1994年復(fù)旦大學(xué)吳立德教授等在分析篇章段落之間的語義聯(lián)系后,通過建立語義網(wǎng)提出基于統(tǒng)計(jì)分析思想的FDASCT系統(tǒng);1997年上海交通大學(xué)王永成等[7]提出OA中文文獻(xiàn)自動(dòng)摘要系統(tǒng),根據(jù)文獻(xiàn)主題及特點(diǎn)獲得摘要,該系統(tǒng)應(yīng)用廣、限制少、速度快、功能多、靈活性強(qiáng);2007年徐永東等 [8]提出基于修辭結(jié)構(gòu)理論的多文檔表示結(jié)構(gòu)(Multiple Document Framework,MDF),描述不同層面文本單元之間的相互關(guān)系以及事件在時(shí)間上的發(fā)生及演變。

        2015年Rush等 [9]利用編碼器-解碼器模型首次將神經(jīng)網(wǎng)絡(luò)用于文本摘要,并嘗試詞袋模型、卷積神經(jīng)網(wǎng)絡(luò)和基于注意力機(jī)制的3種編碼方式;同年,哈爾濱工業(yè)大學(xué)戶保田等 [10]利用遞歸神經(jīng)網(wǎng)絡(luò)在超百萬的短文本數(shù)據(jù)集上生成文摘,取得良好成果;2018年哈爾濱工業(yè)大學(xué)喻麗[11]提出基于LSTM和CNN的深度學(xué)習(xí)方法,實(shí)現(xiàn)對中文長文本自動(dòng)獲取文摘;2019年周才東等 [12]提出局部注意力與CNN結(jié)合模型,該模型可提取文本的高層次特征。

        傳統(tǒng)的多文檔摘要方法存在冗余現(xiàn)象,且可讀性較差。針對上述問題,本文對傳統(tǒng)的多文檔摘要模型進(jìn)行改進(jìn):①融合多特征抽取初始摘要,并結(jié)合MMR與LD算法消除冗余;②改進(jìn)傳統(tǒng)的編碼器-解碼器模型,使用帶有注意力機(jī)制的CNN與GRU模型;③將傳統(tǒng)方法與深度學(xué)習(xí)方法結(jié)合,提出基于多特征融合、CNN和GRU的多文檔自動(dòng)摘要方法。實(shí)驗(yàn)結(jié)果表明,該方法在ROUGE評測體系中表現(xiàn)良好。

        1 多文檔文本摘要方法

        自動(dòng)摘要按技術(shù)可分為抽取式摘要和生成式摘要,按文本范圍分為單文檔摘要和多文檔摘要,按文本語言分為中文文檔和英文文檔[13]。

        1.1 抽取式自動(dòng)摘要方法

        抽取式即對已有句子進(jìn)行排序和選擇,在原文檔基礎(chǔ)上抽取關(guān)鍵句作為文本摘要句。生成式即在抽象語義表示模型基礎(chǔ)上生成摘要[14]。

        (1) 基于詞頻特征方法。TF-IDF中TF是詞頻,IDF是逆文檔頻率。TF-IDF實(shí)際上就是[TF×IDF],常用來提取重要詞語。在高詞頻率和低文檔頻率兩個(gè)條件下,詞語的TF-IDF權(quán)重會(huì)很高。計(jì)算公式如下:

        (2) 基于LDA主題模型方法。LDA的全稱是Latent Dirichlet Allocation,中文解釋為潛在狄利克雷分布,是一種文檔主題生成模型,也是一種三級分層貝葉斯模型[15]。其中,文檔[D]到主題[T]服從多項(xiàng)式分布,主題[T]到詞[W]服從多項(xiàng)式分布。以文檔集合[D]作為輸入,每個(gè)[D]中的文檔都對應(yīng)有不同主題概率,每個(gè)主題有不同的單詞概率。這樣形成兩個(gè)矩陣,一個(gè)是文檔到主題,另一個(gè)是詞到主題。

        (3) 基于圖模型方法。TextRank等[16]在谷歌的PageRank算法上改進(jìn),首先把文本分割構(gòu)建圖模型[G=V,E],由點(diǎn)集合[V]和邊集合[E]組成,[E]是[V×V]的子集。把每個(gè)句子當(dāng)作頂點(diǎn),句子之間的關(guān)系當(dāng)作邊(可加權(quán)也可不加權(quán)),然后計(jì)算每個(gè)頂點(diǎn)[Vi]的權(quán)重[SVi]或[WSVi],最后根據(jù)句子權(quán)重排序得到摘要。如果不使用加權(quán)的邊則需要設(shè)定閾值,定義超過這個(gè)閾值就有邊。[InVi]表示指向[Vi]的點(diǎn)集合,[OutVi]表示點(diǎn)[Vi]指向點(diǎn)的集合,非加權(quán)邊和加權(quán)邊計(jì)算公式如下:

        其中,[d]為阻尼系數(shù),代表從圖中某點(diǎn)指向其它點(diǎn)的概率,大小一般為0.85。

        如果使用加權(quán)邊,那么任意兩點(diǎn)[Vi]和[Vj]之間邊的權(quán)重是[Wji],則加權(quán)邊頂點(diǎn)[Vi] 的權(quán)重[WSVi]計(jì)算公式如下:

        1.2 生成式自動(dòng)摘要方法

        自動(dòng)摘要技術(shù)多用抽取式方法,但該方法面對長且復(fù)雜的文本存在缺陷。

        隨著深度學(xué)習(xí)發(fā)展到NLP領(lǐng)域,關(guān)于神經(jīng)網(wǎng)絡(luò)的各種模型也逐漸應(yīng)用于NLP?;谘h(huán)神經(jīng)網(wǎng)絡(luò)RNN的Seq2Seq模型[17-18]是自然語言處理文本摘要研究熱點(diǎn)。該模型基于Encoder-Decoder框架實(shí)現(xiàn)[19],在兩段文本序列之間架設(shè)一條文本表示與語言生成模型的橋梁[20]。Bahdanau等在該方法基礎(chǔ)上又增加一種注意力機(jī)制,并取得較好的實(shí)驗(yàn)效果。Seq2Seq是典型的端到端模型[21],這種方法使摘要的準(zhǔn)確率顯著提高。

        (1) 基于編碼器-解碼器方法。Seq2Seq屬于Encoder-Decoder模型,能使用特定方法把給定的序列生成另一個(gè)序列。最簡單的Seq2Seq模型由Encoder、Decoder和中間狀態(tài)向量C三個(gè)部分組成。Encoder部分負(fù)責(zé)將輸入序列壓縮成指定長度的向量,即編碼;Decoder部分負(fù)責(zé)根據(jù)語義向量生成指定序列,即解碼;中間語義向量C可看作是所有輸入內(nèi)容的集合。編碼器-解碼器模型如圖1所示。

        對于Encoder的每個(gè)隱藏層[hi]都有一個(gè)得分,計(jì)算包括3種方法:

        此外,Seq2Seq模型一般與Attention注意力機(jī)制搭配使用。Attention可以和遠(yuǎn)距離詞語保持聯(lián)系,進(jìn)而解決向量保存信息不足的問題。在Decoder的每個(gè)步驟進(jìn)行注意力機(jī)制計(jì)算。首先在Decoder state與Encoder中對所有的source state進(jìn)行softmax,計(jì)算出attention weights,然后通過加權(quán)平均的source state計(jì)算出上下文向量attention output,最后合并計(jì)算attention output和Decoder的hidden state值。帶有注意力機(jī)制的編碼器-解碼器模型如圖2所示。

        (2) 基于CNN的方法。CNN類似于生物神經(jīng)網(wǎng)絡(luò)[22],是一種特殊的深層神經(jīng)網(wǎng)絡(luò)模型。CNN屬非全連接和權(quán)值共享,也就是說CNN神經(jīng)元之間的連接是非全連接的,而且同一層中某些神經(jīng)元之間的連接權(quán)重可共享。

        卷積神經(jīng)網(wǎng)絡(luò)開始是根據(jù)視覺神經(jīng)機(jī)制設(shè)計(jì)的,目的是識(shí)別二維形狀[23],主要用作圖像處理[24],因?yàn)檫@種多層感知器的網(wǎng)絡(luò)結(jié)構(gòu)對平移、比例縮放、傾斜或其它形式的變形具有高度不變性。另外,卷積神經(jīng)網(wǎng)絡(luò)可通過層級結(jié)構(gòu)提取數(shù)據(jù)的高層語義特征,解決因人工選擇特征導(dǎo)致信息丟失的問題。

        訓(xùn)練模型Encoder編碼器中的CNN[25]將訓(xùn)練數(shù)據(jù)與卷積核相互運(yùn)算,計(jì)算公式如下:

        池化層和卷積層一樣有滑動(dòng)窗口,不同的是池化層通常不帶參數(shù)進(jìn)行數(shù)據(jù)遴選工作。本文用到的池化方法是max-pooling。

        (3) 基于LSTM的方法。GRU全稱是Gated Recurrent Unit,中文解釋是門控循環(huán)單元,可認(rèn)為是長期短期記憶網(wǎng)絡(luò)LSTM的簡化版,在資源消耗和運(yùn)行時(shí)間上更小,但性能卻和LSTM旗鼓相當(dāng)[26]。GRU改變長期短期記憶網(wǎng)絡(luò)的門,將遺忘門、輸入門和輸出門變成更新門[r]和重置門[z],在保留基本思想(遺忘和更新機(jī)制)基礎(chǔ)上簡化網(wǎng)絡(luò)結(jié)構(gòu)。同時(shí)利用更新門使每個(gè)單元學(xué)習(xí)長短期特征,減小梯度彌散的風(fēng)險(xiǎn)。

        (4) 基于指針網(wǎng)絡(luò)的方法。指針網(wǎng)絡(luò)也稱為Pre-Net模型,如圖4所示,主要用來解決Seq2Seq模型中由輸入數(shù)據(jù)決定字典大小的問題。

        指針網(wǎng)絡(luò)來源于注意力機(jī)制,通過編碼器端的隱藏層信息與解碼器端的隱藏層信息得到最終輸出。

        2 多文檔自動(dòng)摘要方法

        本文提出一種結(jié)合多特征融合、CNN和GRU神經(jīng)網(wǎng)絡(luò)(M-C-G)的復(fù)合模型方法,將抽取式與生成式兩部分結(jié)合進(jìn)行多文檔自動(dòng)摘要生成。

        2.1 相關(guān)概念

        定義1 (新聞網(wǎng)站摘要清洗語料集):

        CleaningWebCorpus={ | u∈[1…newsum]},其中,newsum為新聞網(wǎng)站摘要清洗語料集的語料條數(shù),newTopicu、newTitleu、newContentu、newAddressu依次為第u條語料的主題編號(hào)、標(biāo)題、正文、URL地址。

        定義2(新聞網(wǎng)站摘要主題數(shù)據(jù)集):

        TopicsData={ |

        u∈[1…topicsum]},其中,topicsum為新聞網(wǎng)站摘要主題數(shù)據(jù)集的數(shù)據(jù)條數(shù),topicIDu為第u條主題編號(hào),topicNameu為第u條主題名稱。

        定義3(哈工大停用詞有序列表):

        StopWordsList=[ |

        u∈[1…stopsum]],其中,stopsum為停用詞列表數(shù)量,stopWordsu為第u個(gè)停用詞。

        定義4(近義詞數(shù)據(jù)集):

        SynonymsData={ | u∈[1…synonymssum]},其中synonymssum為近義詞數(shù)據(jù)集的數(shù)據(jù)條數(shù),mainSynonymsu為第u條數(shù)據(jù)的主要近義詞,minorSynonyms為次要近義詞。

        定義5(同主題新聞網(wǎng)站摘要語料集):

        SameTopicCorpus={

        sameTopicContentu}> | u∈[1…sametopicsum]},其中,sametopicsum為同主題新聞網(wǎng)站摘要語料集的數(shù)據(jù)條數(shù),sameTopicTitleu為第u條語料標(biāo)題,sameTopicContentu為第u條語料正文。

        定義6(斷句符號(hào)有序列表):

        BreakPointsList=[

        |

        u∈[1…breaksum]],其中,breaksum為斷句符號(hào)列表數(shù)量,breakPointsu為第u個(gè)斷句符號(hào)。

        定義7(同主題新聞網(wǎng)站摘要斷句語料集):

        SameTopicStopSentenceCorpus={ | u∈[1…maxsentencesum]},其中,maxsentencesum為同主題新聞網(wǎng)站摘要斷句語料集數(shù)據(jù)條數(shù),stopPositionu、stopSentenceu、stopValueu依次為第u條句子位置、內(nèi)容、權(quán)重。

        定義8(同主題新聞網(wǎng)站摘要斷詞語料集):

        SameTopicStopWordCorpus={ | u∈[1…maxwordsum]},其中,maxwordsum為同主題新聞網(wǎng)站摘要斷字語料集數(shù)據(jù)條數(shù),stopWordu為第u個(gè)詞語。

        定義9(關(guān)鍵詞有序列表):

        KeyWordsList=[ | u∈[1…keysum]],其中,keysum為關(guān)鍵字列表數(shù)量,keyWordsu為第u個(gè)關(guān)鍵字。

        定義10(在融合多特征后的摘要結(jié)果有序列表):

        FirstResultsList=[ |

        u∈[1…firstsum]],其中,firstsum為摘要長度,firstSentenceu為第u個(gè)摘要句。

        定義11(預(yù)選摘要結(jié)果有序列表):

        SecondResultsList=[ |

        u∈[1…secondsum]],其中,secondsum為摘要長度,secondSentenceu為第u個(gè)摘要句。

        定義12(同主題下切分詞字典數(shù)據(jù)集):

        TokenizeWordsData={ | u∈[1…tokenizesum]},其中,tokenizesum為字典數(shù)據(jù)集的數(shù)據(jù)數(shù)量,tokenizeWordsu為第u個(gè)切分詞。

        定義13(最終摘要結(jié)果有序列表):

        LastResultsList=[ |

        u∈[1…lastsum]],其中,lastsum為摘要長度,lastSentenceu為第u篇文章的摘要句。

        此外,本文方法還包括一些專有名詞,主要用于表示基于特征融合的抽取式自動(dòng)摘要方法專有名詞,如表1所示。

        2.2 數(shù)據(jù)預(yù)處理

        與純文本文檔相比,HTML網(wǎng)頁會(huì)插入大量的非文本信息,如圖片、Flash等,這些非文本對文檔摘要貢獻(xiàn)不大, HTML網(wǎng)頁的其它文本信息才需要重點(diǎn)關(guān)注。因此,在去除噪聲數(shù)據(jù)的同時(shí),需要充分挖掘網(wǎng)頁結(jié)構(gòu)信息的價(jià)值。

        在開始本文處理方法之前需要對HTML網(wǎng)頁進(jìn)行爬蟲處理,挖掘出標(biāo)題和正文信息,根據(jù)這些信息人工分為30種不同主題并將其標(biāo)記,以便進(jìn)行后續(xù)操作。實(shí)驗(yàn)步驟如下:①對CleaningWebCorpus進(jìn)行文本預(yù)處理,包括Hanlp中文分詞、根據(jù)停用詞列表StopWordsList去停用詞、根據(jù)近義詞數(shù)據(jù)集SynonymsData替換詞語等等;②使用word2vec工具訓(xùn)練詞向量模型W,并以。model文件形式存儲(chǔ)在自定義路徑下;③在每個(gè)主題下對SameTopicCorpus進(jìn)行文本預(yù)處理,包括Hanlp中文分詞、停用詞列表、StopWordsList去停用詞、根據(jù)近義詞數(shù)據(jù)集SynonymsData替換詞語等;④計(jì)算相同主題下每個(gè)詞語的TF-IDF值,加載詞向量模型W,將原詞向量乘以TF-IDF的值作為該詞語新的詞向量;⑤根據(jù)斷句符號(hào)列表BreakPointsList把所有斷句符號(hào)替換成“|”,再以“|”符號(hào)進(jìn)行斷句操作,去除所有空字符串;⑥為保證長句不會(huì)比短句得分高,計(jì)算一個(gè)句子中所有詞向量的加權(quán)之和的平均值作為句子向量,然后計(jì)算文檔中所有句子向量的加權(quán)之和平均值作為文檔向量;⑦獲取主題新聞網(wǎng)站摘要斷句語料集SameTopicStopSentenceCorpus。

        2.3 多文檔摘要算法流程

        本文將抽取式與生成式兩部分結(jié)合生成多文檔自動(dòng)摘要。基于M-C-G神經(jīng)網(wǎng)絡(luò)的多文檔摘要方法算法流程如圖5所示。

        抽取式部分實(shí)驗(yàn)步驟如下:①將SameTopicStopWordCorpus詞語去重放入LDA主題模型中訓(xùn)練,并設(shè)置num_topics值為1,得到同主題下句子的主題信息權(quán)重ZT;②用余弦公式計(jì)算句子向量與文檔向量之間的夾角余弦值,得到余弦信息權(quán)重YX;③利用TextRank算法得到KeyWordsList,然后計(jì)算關(guān)鍵詞個(gè)數(shù)/句子長度,得到一個(gè)句子的關(guān)鍵字權(quán)重GJ;④根據(jù)公式計(jì)算得到位置信息權(quán)重WZ;⑤由句子長度和目標(biāo)長度的差別計(jì)算長度信息權(quán)重CD;⑥獲取每個(gè)句子最終權(quán)重值:stopValue=ZT*YX*GJ*WZ* CD;⑦根據(jù)stopValue對SameTopicStopSentenceCorpus進(jìn)行排序,選取TOP3*sametopicsum得到融合多特征之后的摘要結(jié)果列表FirstResultsList;⑧挑選出權(quán)重最大的句子作為最終摘要列表首句,利用MMR算法計(jì)算待選取摘要句子與已選取摘要句子的相似度[S1],利用FuzzyWuzzy工具中LD算法計(jì)算待選取摘要句子和已選取摘要句子的相似度[S2],根據(jù)每個(gè)句子[S1+S2]的平均值排序,選取TOPsametopicsum,以保證句子多樣性;⑨按照SameTopicStopSentenceCorpus的stopPosition對句子進(jìn)行排序,得到預(yù)選摘要結(jié)果列表SecondResultsList。

        根據(jù)公式(9)計(jì)算得到位置信息權(quán)重:

        [pos]為句子[P]在文檔[D]中的位置順序,例如[P]為文檔的第1句話,那么[pos]的值就是1。[lenD]表示文檔[D]所包含的句子數(shù)量。

        由句子在文中位置,根據(jù)公式計(jì)算長度信息權(quán)重,流程如圖6所示。

        把抽取式部分生成的初始摘要結(jié)果輸入生成式方法部分,生成式部分實(shí)驗(yàn)步驟如下:①對SecondResultsList進(jìn)行文本預(yù)處理,包括Hanlp中文分詞、根據(jù)停用詞列表StopWordsList去停用詞、根據(jù)近義詞數(shù)據(jù)集SynonymsData替換詞語等,得到同主題下切分詞字典數(shù)據(jù)集TokenizeWordsData;②基于PyTorch框架構(gòu)建Seq2Seq模型,由Encoder-Decoder組成并添加注意力機(jī)制Attention,使用CNN和GRU訓(xùn)練模型的Encoder。先利用CNN卷積核進(jìn)行相互運(yùn)算,然后進(jìn)行最大池化層操作,再進(jìn)行GRU, 使用LuongAttention訓(xùn)練模型的Attention,使用GRU訓(xùn)練模型的Decoder;③用80%搜狗數(shù)據(jù)集訓(xùn)練得到seq2seq訓(xùn)練模型M,用20%搜狗數(shù)據(jù)集做驗(yàn)證,預(yù)測摘要和實(shí)際摘要,與反向調(diào)整模型參數(shù)對比;④在模型M下訓(xùn)練摘要結(jié)果預(yù)選列表SecondResultsList,得到最終摘要結(jié)果列表LastResultsList,并把摘要句子用逗號(hào)拼接。

        基于M-C-G神經(jīng)網(wǎng)絡(luò)的生成式部分操作流程如圖7所示。

        3 實(shí)驗(yàn)分析

        3.1 數(shù)據(jù)準(zhǔn)備

        為驗(yàn)證本文提出方法的有效性,首先爬取人民網(wǎng)、新浪網(wǎng)的新聞文本數(shù)據(jù)(主要包括標(biāo)題和正文),經(jīng)過數(shù)據(jù)清洗和預(yù)處理得到初步的摘要結(jié)果。由于多文檔摘要沒有可供深度學(xué)習(xí)模型訓(xùn)練的大規(guī)模數(shù)據(jù)集,而深度學(xué)習(xí)方法需要大量數(shù)據(jù)集支撐,因此采用8.3萬條搜狐新聞?wù)Z料文本數(shù)據(jù)預(yù)先訓(xùn)練模型,同時(shí)解決OOV等問題,最后把初步摘要結(jié)果輸入模型進(jìn)行測試。

        3.2 評價(jià)標(biāo)準(zhǔn)

        文本摘要評價(jià)方法分為內(nèi)部評價(jià)和外部評價(jià)兩種。內(nèi)部評價(jià)需提供參考摘要計(jì)算所生成摘要的質(zhì)量,而外部評價(jià)不需要提供參考摘要,只需根據(jù)檢索的準(zhǔn)確度、文摘的分類等指標(biāo)進(jìn)行評價(jià),是一種間接的評價(jià)方法。

        內(nèi)部評價(jià)是最直接也是學(xué)術(shù)界最常用的文本摘要評價(jià)方法,因此在比較模型性能時(shí)本文采用內(nèi)部評價(jià)方法。內(nèi)部評價(jià)又分為自動(dòng)評測和人工評測,人工評測費(fèi)時(shí)費(fèi)力,容易受干擾,故本文采用自動(dòng)評測,將ROUGE作為指標(biāo)進(jìn)行度量。

        ROUGE是一種面向N元詞召回率的評價(jià)方法[13],使用生成摘要中N元詞(N-gram)與參考摘要共同評價(jià)摘要。其由一系列評價(jià)方法組成,包括ROUGE-N、ROUGE-L等等。ROUGE-N中的N代表基于N元詞的N-gram模型,計(jì)算公式如下:

        其中,[refsummaries]指參考摘要,[N_gram]指N元詞,[countmatchN_gram]指生成摘要及參考摘要中同時(shí)出現(xiàn)[N_gram]的數(shù)目,[countN_gram]指參考摘要中出現(xiàn)的[N_gram]數(shù)目。

        ROUGE-L是基于最長公共子串的方法,如參考句子[S=W1W2W3W4W5]及系統(tǒng)句子[C=W1W2W3W7W8], [S]和[C]的最長公共子串就是[W1W2W3]。

        3.3 實(shí)驗(yàn)結(jié)果分析

        實(shí)驗(yàn)在一臺(tái)筆記本和一臺(tái)臺(tái)式機(jī)同步進(jìn)行,筆記本配置為Windows7、i5-4210CPU、12G內(nèi)存,臺(tái)式機(jī)配置為Ubuntu16.04、i7-5700CPU、GTX1080GPU、CUDA10、8G顯存、16G內(nèi)存。

        針對1_澳門回歸_train數(shù)據(jù),將幾種方法在原始數(shù)據(jù)集得到的摘要結(jié)果在ROUGE評測體系進(jìn)行比較,可見本文方法相比其它幾種方法更優(yōu)。

        為更好地說明本文方法的普遍性,對30種不同主題數(shù)據(jù)進(jìn)行測試,圖8是本文方法針對不同數(shù)據(jù)的對比結(jié)果。

        4 結(jié)語

        本文研究了多文檔摘要存在的信息冗余問題,將傳統(tǒng)方法與深度學(xué)習(xí)方法相結(jié)合,創(chuàng)造性地提出基于M-C-G的多文檔摘要方法。首先從人民網(wǎng)、新浪網(wǎng)等獲取30種不同主題的新聞網(wǎng)頁數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗和數(shù)據(jù)預(yù)處理得到初步摘要結(jié)果。將8.3萬條搜狐新聞?wù)Z料文本數(shù)據(jù)在Seq2Seq模型上進(jìn)行訓(xùn)練,使用初步摘要結(jié)果進(jìn)行測試得到最終摘要結(jié)果。實(shí)驗(yàn)結(jié)果表明,該方法在ROUGE評測體系中表現(xiàn)良好,可有效幫助用戶尋找有價(jià)值的文本信息。但本文方法還存在多文檔摘要語料集規(guī)模不大;生成的摘要句子來源于不同文檔,導(dǎo)致摘要不夠連貫,影響摘要可讀性的缺陷。后續(xù)要針對大規(guī)模多文檔語料及提升摘要連貫性進(jìn)行深入研究,以便摘要更加貼近生活。

        參考文獻(xiàn):

        [1] AL SALEH A B,MENAI M E B.? Automatic arabic text summarization: a survey[J].? Artificial Intelligence Review, 2015, 45(2):1102-1121.

        [2] REN M A F F.? Automatic text summarization[J].? Digithum, 2008, 4(3):82-83.

        [3] ALLAHYARIM,POURIYEH S, ASSEFI M, et al. Text summarization techniques: a brief survey[J].? International Journal of Advanced Computer Science & Applications, 2017, 8(10):397-405.

        [4] LUHN H P.? The Automatic creation of literature abstracts[J].? IBM Journal of Research and Development, 1958, 2(2):159-165.

        [5] EDMUNDSON H P,WYLLYS R E.? Automatic abstracting and indexing survey and recommendations[J].? Communications of the ACM, 1961, 4(5):226-234.

        [6] EDMUNDSON H P. New methods in automatic extracting[J]. Journal of the ACM, 1969, 16(2):264-285.

        [7] 王永成,許慧敏. OA中文文獻(xiàn)自動(dòng)摘要系統(tǒng)[J].? 情報(bào)學(xué)報(bào),1997,45(2):92-97.

        [8] 徐永東, 徐志明,王曉龍, 等.? 基于信息融合的多文檔自動(dòng)文摘技術(shù)[J].? 計(jì)算機(jī)學(xué)報(bào),2007,30(11):2048-2054.

        [9] RUSH A M, CHOPRA S,WESTON J. A neural attention model for abstractive sentence summarization[C]. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:379-389.

        [10] HU B T, CHEN Q, ZHU F. LCSTS: A large scale chinese short text summarization dataset[J].? Computer Science,2015(9):2667-2671.

        [11] 喻麗.? 基于卷積神經(jīng)網(wǎng)絡(luò)的中文自動(dòng)文摘方法[D]. 哈爾濱:哈爾濱工業(yè)大學(xué),2017.

        [12] 周才東,曾碧卿,王盛玉,等.? 結(jié)合注意力與卷積神經(jīng)網(wǎng)絡(luò)的中文摘要研究[J].? 計(jì)算機(jī)工程與應(yīng)用, 2019, 55(8):138-143.

        [13] 高揚(yáng). 智能摘要與深度學(xué)習(xí)[M]. 北京:北京理工大學(xué)出版社, 2019.

        [14] GAMBHIRM, GUPTA V.? Recent automatic text summarization techniques: a survey[J].? Artificial Intelligence Review, 2017, 47(1):1-66.

        [15] MARTINEZ A M,KAK A C.? PCA versus LDA[J].? IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(2):228-233.

        [16] MIHALCEAR,TARAU P. Textrank: bringing order into texts[J].? Emnlp, 2004(11):404-411.

        [17] 董晨西.? 基于深度學(xué)習(xí)的短文本自動(dòng)摘要方法研究[D]. 北京:北京郵電大學(xué),2019.

        [18] 賈星宇.? 基于深度學(xué)習(xí)的短文自動(dòng)摘要生成算法研究[D]. 西安:西安科技大學(xué),2019.

        [19] YAO K, ZHANG L, DU D, et al. Dual encoding for abstractive text summarization[J].? IEEE Transactions on Cybernetics, 2018(124):1241-1249.

        [20] 王帥, 趙翔, 李博, 等.? TP-AS: 一種面向長文本的兩階段自動(dòng)摘要方法[J].? 中文信息學(xué)報(bào), 2018, 32(6):391-301.

        [21] YU L,BANSAL M, BERG T L.? Hierarchically-attentive RNN for album summarization and storytelling[EB/OL].? http://blog.sina.com.cn/s/blog_eaaaa9620102ywsg.html 2017.

        [22] SHIH CHUNG B LO. A multiple circular path convolution neural network system for detection of mammographic masses[J].? IEEE Transactions on Medical Imaging, 2002, 21(2):150-158.

        [23] PEDRAMGHAMISI. A self-improving convolution neural network for the classi?cation of hyperspectral data[J].? IEEE Geoscience and Remotesensing Letters, 2016, 13 (10):1537-1541.

        [24] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE Computer Society, 2016.

        [25] 王瑋. 基于C-R神經(jīng)網(wǎng)絡(luò)的生成式自動(dòng)摘要方法[J]. 計(jì)算機(jī)與數(shù)字工程,2020,48(1):112-118.

        [26] RANAR. Gated recurrent unit (GRU) for emotion classification from noisy speech[EB/OL]. http://www.doc88.com/p-6803897867028.html, 2016.

        (責(zé)任編輯:杜能鋼)

        猜你喜歡
        特征融合深度學(xué)習(xí)
        基于移動(dòng)端的樹木葉片識(shí)別方法的研究
        科技資訊(2017年11期)2017-06-09 18:28:13
        基于SIFT特征的港口內(nèi)艦船檢測方法
        融合整體與局部特征的車輛型號(hào)識(shí)別方法
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        基于MATLAB的道路交通標(biāo)志識(shí)別
        亚洲一区免费视频看看| 亚洲av日韩av永久无码色欲| 国产精品一区二区三区在线免费| 在线观看免费不卡网站| av免费在线播放一区二区| 色佬易精品视频免费在线观看| 女优视频一区二区三区在线观看| 噜噜噜色97| 亚洲国产不卡av一区二区三区 | 最新国产成人在线网站| 456亚洲人成在线播放网站| AV中文码一区二区三区| av最新版天堂在资源在线| 偷拍熟女露出喷水在线91| 婷婷开心五月亚洲综合| 人妻少妇猛烈井进入中文字幕| 韩国日本一区二区在线| 人妻久久一区二区三区| 开心激情视频亚洲老熟女| 日本免费在线不卡一区二区| 亚洲 另类 小说 国产精品| 无码少妇丰满熟妇一区二区| 白嫩丰满少妇av一区二区| 精品福利一区二区三区免费视频| 岳丰满多毛的大隂户| 手机福利视频| 久久久av精品波多野结衣| 99精品国产综合久久久久五月天| 亚洲国产激情一区二区三区| 乱人伦视频69| 狠狠狠狠狠综合视频| 在线看不卡的国产视频| 偷拍一区二区三区高清视频| 成人午夜福利视频后入| 色噜噜av亚洲色一区二区| 性欧美老人牲交xxxxx视频| 国产午夜精品久久久久免费视 | 67194熟妇人妻欧美日韩| 熟女无套内射线观56| 国产女人高潮视频在线观看| 欧美艳星nikki激情办公室|