明拓思宇,陳鴻昶
?
文本摘要研究進(jìn)展與趨勢(shì)
明拓思宇,陳鴻昶
(國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,河南 鄭州 450002)
隨著互聯(lián)網(wǎng)上的信息呈爆炸式增長(zhǎng),如何從海量信息中提取有用信息成了一個(gè)關(guān)鍵的技術(shù)問(wèn)題。文本摘要技術(shù)能夠從大數(shù)據(jù)中壓縮提煉出精煉簡(jiǎn)潔的文檔信息,有效降低用戶(hù)的信息過(guò)載問(wèn)題,成為研究熱點(diǎn)。分類(lèi)整理分析了近些年來(lái)國(guó)內(nèi)外的文本摘要方法及其具體實(shí)現(xiàn),將傳統(tǒng)方法和深度學(xué)習(xí)摘要方法的優(yōu)缺點(diǎn)進(jìn)行了對(duì)比分析,并對(duì)今后的研究方向進(jìn)行了合理展望。
大數(shù)據(jù);文本摘要;機(jī)器學(xué)習(xí);傳統(tǒng)方法;深度學(xué)習(xí)
文本摘要是一種從一個(gè)或多個(gè)信息源中抽取關(guān)鍵信息的方法,它幫助用戶(hù)節(jié)省了大量時(shí)間,用戶(hù)可以從摘要獲取到文本的所有關(guān)鍵信息點(diǎn)而無(wú)需閱讀整個(gè)文檔。文本摘要是一個(gè)典型的文本壓縮任務(wù)。隨著信息化時(shí)代的到來(lái),人們變得越來(lái)越依賴(lài)互聯(lián)網(wǎng)獲取所需要的信息。但是隨著互聯(lián)網(wǎng)的發(fā)展,其上的信息呈現(xiàn)爆炸式增長(zhǎng),如何有效地從海量信息中篩選出所需的有用信息成了關(guān)鍵性的技術(shù)問(wèn)題。因?yàn)樯婕吧顚哟蔚淖匀徽Z(yǔ)言處理的能力,所以一直以來(lái)它都是個(gè)任務(wù)難點(diǎn)。自動(dòng)文本摘要技術(shù)對(duì)文檔信息進(jìn)行有效的壓縮提煉,幫助用戶(hù)從海量信息中檢索出所需的相關(guān)信息,避免通過(guò)搜索引擎來(lái)檢索可能產(chǎn)生過(guò)多冗余片面信息的問(wèn)題,有效地解決了信息過(guò)載的問(wèn)題。
文本摘要有多種分類(lèi)方法,按照摘要方法劃分可以分為抽取式摘要[1]方法和生成式摘要[2]方法。抽取式摘要方法通過(guò)抽取文檔中的句子生成摘要,通過(guò)對(duì)文檔中句子的得分進(jìn)行計(jì)算,得分代表重要性程度,得分越高代表句子越重要,然后通過(guò)依次選取得分最高的若干個(gè)句子組成摘要,摘要的長(zhǎng)度取決于壓縮率。生成式摘要方法不是單純地利用原文檔中的單詞或短語(yǔ)組成摘要,而是從原文檔中獲取主要思想后以不同的表達(dá)方式將其表達(dá)出來(lái)。生成式摘要方法為了傳達(dá)原文檔的主要觀點(diǎn),可以重復(fù)使用原文檔中的短語(yǔ)和語(yǔ)句,但總體上來(lái)說(shuō),摘要需要用作者自己的話(huà)來(lái)概括表達(dá)。生成式摘要方法需要利用自然語(yǔ)言理解技術(shù)對(duì)原文檔進(jìn)行語(yǔ)法語(yǔ)義的分析,然后對(duì)信息進(jìn)行融合,通過(guò)自然語(yǔ)言生成的技術(shù)生成新的文本摘要。
按照文檔數(shù)量劃分,可以分為單文檔摘要[3]方法和多文檔摘要[4]方法。單文檔摘要方法是指針對(duì)單個(gè)文檔,對(duì)其內(nèi)容進(jìn)行抽取總結(jié)生成摘要;多文檔摘要方法是指從包含多份文檔的文檔集合中生成一份能夠概括這些文檔中心內(nèi)容的摘要。
按照文本摘要的學(xué)習(xí)方法可分為有監(jiān)督[5]方法和無(wú)監(jiān)督[6]方法。有監(jiān)督方法需要從文件中選取主要內(nèi)容作為訓(xùn)練數(shù)據(jù),大量的注釋和標(biāo)簽數(shù)據(jù)是學(xué)習(xí)所需要的。這些文本摘要的系統(tǒng)在句子層面被理解為一個(gè)二分類(lèi)問(wèn)題,其中,屬于摘要的句子稱(chēng)為正樣本,不屬于摘要的句子稱(chēng)為負(fù)樣本。機(jī)器學(xué)習(xí)中的支持向量機(jī)(SVM, support vector machine)和神經(jīng)網(wǎng)絡(luò)也會(huì)用到這樣分類(lèi)的方法。無(wú)監(jiān)督[7-8]的文本摘要系統(tǒng)不需要任何訓(xùn)練數(shù)據(jù),它們僅通過(guò)對(duì)文檔進(jìn)行檢索即可生成摘要。
本文按照時(shí)間的順序,對(duì)研究文本摘要方法的相關(guān)文獻(xiàn)進(jìn)行收集整理,對(duì)文本摘要方法的研究進(jìn)展進(jìn)行簡(jiǎn)要的概括總結(jié)和分析。
抽取式文本摘要方法的關(guān)鍵問(wèn)題是從原文檔中抽取出重要性高的若干句子[9]。研究初期是以統(tǒng)計(jì)學(xué)為支撐,統(tǒng)計(jì)學(xué)的方法是基于統(tǒng)計(jì)特征,如詞頻、句子中心性(即與其他句子的相似性)、句子位置、句子與標(biāo)題的相似性、句子的相對(duì)長(zhǎng)度等統(tǒng)計(jì)特征來(lái)生成摘要的。首先使用“詞頻”這一簡(jiǎn)單的文本特征對(duì)文檔的重要句子和詞組進(jìn)行抽取生成,根據(jù)經(jīng)驗(yàn)可知,除去停用詞以外,文中出現(xiàn)頻率越高的單詞,其重要性也就越高。根據(jù)單詞的詞頻高低分別設(shè)置相應(yīng)的詞權(quán)重,詞頻越高,對(duì)應(yīng)的權(quán)重也就越高;句子的權(quán)重是組成句子單詞的權(quán)重之和。然后從文檔中抽取權(quán)重高的單詞和句子組成摘要,這就是簡(jiǎn)單的基于詞頻的文本摘要方法。
句子在段落中的位置對(duì)句子的重要性影響很大,根據(jù)經(jīng)驗(yàn)可知,一個(gè)段落的首尾句成為概括段落中心思想主題句的概率比其他位置句子的概率要高。Baxendale等[10]從句子位置的特征出發(fā),通過(guò)計(jì)算文檔段落首尾句能夠概括主題的主題句概率,選取得分最高的若干句子生成文本摘要。Edmundson等[11]在研究中也指出,線(xiàn)索詞(如“幾乎不”“不可能”等類(lèi)似的特定詞匯)對(duì)句子重要性也起到了一定的影響作用。他們將詞頻、句子位置、線(xiàn)索詞、標(biāo)題詞等多個(gè)特征組合起來(lái)作為衡量句子重要性的綜合指標(biāo),在質(zhì)量上取得了一定的改善。
其他著名的方法有TF-IDF(詞頻?逆向文件頻率),它是由Salon最先提出的[12],這種統(tǒng)計(jì)的方法通過(guò)詞頻和逆向文件頻率共同評(píng)估一個(gè)詞在一個(gè)文件集或語(yǔ)料庫(kù)中的重要程度,字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。利用TF-IDF生成文本摘要的基本思路是通過(guò)背景語(yǔ)料統(tǒng)計(jì)出各個(gè)詞的TF-IDF值,將其作為重要性得分的權(quán)值,接著根據(jù)各個(gè)詞的TF-IDF值累加求和計(jì)算得到段落中各個(gè)句子的TF-IDF值,將其作為該句的重要性得分,然后將句子按照重要性得分排序,依據(jù)文本摘要的大小依次選取重要性得分從高到低的若干個(gè)句子組成摘要。這種算法在詞頻算法的基礎(chǔ)上引入一個(gè)逆文檔因子,它能夠有效地區(qū)分出高頻無(wú)效詞,在一定基礎(chǔ)上改進(jìn)了一般詞頻算法。其后,基于TF-IDF的方法被廣泛應(yīng)用于單詞的重要性識(shí)別[13-16]。
El-Beltagy等[17]提出了提取關(guān)鍵詞性能最好的系統(tǒng)SemEval2010,它利用詞頻等統(tǒng)計(jì)特征過(guò)濾不可能是關(guān)鍵詞的短語(yǔ),然后結(jié)合TF-IDF模型減小對(duì)特殊詞的影響,并對(duì)候選短語(yǔ)進(jìn)行排序選出文摘句。Danesh等[18]基于統(tǒng)計(jì)啟發(fā)式算法(如TF-IDF分?jǐn)?shù)和文檔中短語(yǔ)的第一個(gè)位置)的組合計(jì)算每個(gè)短語(yǔ)的初始權(quán)重。然后將短語(yǔ)及其初始權(quán)重聯(lián)合,基于圖表的算法產(chǎn)生候選關(guān)鍵詞的最終排序。Florescu等[19]在Danesh等的基礎(chǔ)上進(jìn)行了改進(jìn),它不僅僅考慮文中每個(gè)詞在句子中首次出現(xiàn)的位置,還將每個(gè)單詞在句子中出現(xiàn)的所有位置信息進(jìn)行聚合來(lái)計(jì)算相應(yīng)的詞權(quán)重,進(jìn)一步改進(jìn)統(tǒng)計(jì)學(xué)特征中詞句位置因素對(duì)其重要性的影響,在一定程度上改良了文本摘要的質(zhì)量水平。Padmalahari等[20]綜合統(tǒng)計(jì)特征和語(yǔ)言特征對(duì)句子賦予權(quán)重,使用連續(xù)閾值從給定的輸入文本文檔中找出重要句子構(gòu)成文本摘要,摘要質(zhì)量得到了有效提升。
統(tǒng)計(jì)學(xué)的方法主要適用于格式相對(duì)比較規(guī)范的文檔摘要。此類(lèi)方法比較經(jīng)典,首次在自動(dòng)文本摘要方面取得了重大突破,但由于此類(lèi)方法只是基于句子和單詞本身的表層特征進(jìn)行統(tǒng)計(jì),未能充分利用詞義關(guān)系、詞間關(guān)系等特征,所以還有很大的局限性,因此針對(duì)這些問(wèn)題,一些改進(jìn)的方法隨后被接連提出。
1995年,Miller[21]提出了利用生成詞匯鏈的方法來(lái)生成摘要,這種方法主要通過(guò)對(duì)文章的內(nèi)容進(jìn)行自然語(yǔ)言分析處理來(lái)生成摘要。首先選定候選詞的集合,然后根據(jù)詞匯鏈之間的相關(guān)程度,為每一個(gè)候選詞選擇相應(yīng)的詞匯鏈,如果候選詞與該詞匯鏈之間的相關(guān)程度比較高,則將候選詞添加到該詞匯鏈中。最后依據(jù)詞匯鏈的長(zhǎng)度與一致性對(duì)其進(jìn)行綜合評(píng)分,通過(guò)一些啟發(fā)式方法選取若干詞匯鏈生成最后所需要的摘要。Barzilay等[22]基于詞匯鏈的摘要方法做出了創(chuàng)新改進(jìn),不再用單個(gè)詞作為分析單元,而是通過(guò)WordNet[21,23]、詞性標(biāo)注工具等對(duì)詞義進(jìn)行分析,將原文檔中與某個(gè)主題相關(guān)的詞匯集合起來(lái),構(gòu)成詞匯鏈,詞匯鏈重要性表達(dá)式如下。
其中,表示詞匯鏈中所有詞匯的詞頻之和,是均一度指數(shù),計(jì)算如式(2)所示。
選擇出強(qiáng)詞匯鏈。確定強(qiáng)詞匯鏈后,通過(guò)制定的3條啟發(fā)式的規(guī)則,為每一個(gè)強(qiáng)詞匯鏈抽取一個(gè)句子形成最后的摘要。在此基礎(chǔ)上,后來(lái)還提出了結(jié)合修辭結(jié)構(gòu)、修辭學(xué)理論等一系列方法對(duì)詞匯鏈方法進(jìn)行改進(jìn)[24-26]。由于傳統(tǒng)的詞匯鏈只考慮名詞而忽略其他語(yǔ)法部分的信息導(dǎo)致準(zhǔn)確率較低,Hou等[27]在此基礎(chǔ)上做了進(jìn)一步改進(jìn)優(yōu)化,分別引入謂詞和形容詞(副詞)的詞匯鏈,三者一起構(gòu)成全息詞匯鏈(holographic lexical chain)用于中文文本摘要,準(zhǔn)確率取得了顯著性的提高。Lynn等[28]通過(guò)對(duì)常規(guī)的詞匯鏈進(jìn)行增強(qiáng)改進(jìn),引入文本中關(guān)鍵詞的3個(gè)不同文本特征來(lái)產(chǎn)生更好的文本相關(guān)信息,取得了良好的提升效果。
基于WordNet語(yǔ)義詞典對(duì)單詞的語(yǔ)義進(jìn)行分析的方法,通過(guò)Lesk算法從特定的情景中找到單詞的實(shí)際意思[29],接著使用簡(jiǎn)化Lesk算法分別分析文本中所有句子的權(quán)重,并根據(jù)其權(quán)重按降序排列。然后根據(jù)給定的摘要比例,從有序列表中選擇特定數(shù)量的句子生成摘要。雖然此類(lèi)方法基于詞的全局性和語(yǔ)義關(guān)系等多種屬性來(lái)判斷句子的重要性,改進(jìn)了簡(jiǎn)單統(tǒng)計(jì)方法未充分利用詞間關(guān)系、詞義關(guān)系等特征的不足,但由于受限于當(dāng)時(shí)的技術(shù),該方法對(duì)原文檔的分析還停留在比較淺的層面。
互聯(lián)網(wǎng)網(wǎng)頁(yè)上的文檔具有較松散且涉及主題較多的結(jié)構(gòu)特點(diǎn),在此基礎(chǔ)上,研究出了一些專(zhuān)門(mén)針對(duì)生成網(wǎng)頁(yè)文檔摘要的自動(dòng)摘要技術(shù),就是基于圖排序的文本摘要的方法?;趫D排序的文本摘要生成的主要方法是通過(guò)把文章分成若干個(gè)段落或句子的集合,每個(gè)集合對(duì)應(yīng)一個(gè)圖的頂點(diǎn),集合之間的關(guān)系對(duì)應(yīng)邊,最后通過(guò)圖排序的算法(如PageRank[30]、HITS[31]等)計(jì)算各個(gè)頂點(diǎn)最后的得分,然后依據(jù)得分高低生成文本摘要。
最先,Mihalcea[32]使用PageRank算法及其改進(jìn)的算法TextRank提取關(guān)鍵詞和關(guān)鍵句子來(lái)生成文檔摘要。在這個(gè)方法中,他們將單詞或句子作為圖的頂點(diǎn),將詞或句子之間的相似度作為圖頂點(diǎn)之間的連邊。句子之間的相似度單純由句子之間內(nèi)容重疊部分的多少?zèng)Q定,相似度通過(guò)計(jì)算2個(gè)句子之間共同單詞的數(shù)量得到。對(duì)于提取關(guān)鍵句子的部分,由于考慮到長(zhǎng)句所包含的信息量大,覆蓋的內(nèi)容較多,導(dǎo)致長(zhǎng)句得分普遍比短句高,因此對(duì)長(zhǎng)句進(jìn)行相應(yīng)的懲罰,將計(jì)算的得分值除去句子的長(zhǎng)度得到相似度值,即邊的權(quán)值。當(dāng)2個(gè)頂點(diǎn)之間相似度大于零時(shí),則存在一條邊將2個(gè)頂點(diǎn)連接起來(lái),邊的權(quán)值也就是頂點(diǎn)之間的相似度數(shù)值;當(dāng)2個(gè)頂點(diǎn)之間相似度為零時(shí),則頂點(diǎn)之間不存在連邊的關(guān)系。幾種基本的圖模型包括有向無(wú)權(quán)圖、有向加權(quán)圖、無(wú)向加權(quán)圖、無(wú)向無(wú)權(quán)圖。對(duì)于有向圖,邊的方向是依據(jù)文檔句子的順序,對(duì)于所有的圖,邊的權(quán)值都是句子或詞之間的相似度。基于這些圖模型,依據(jù)PageRank、HITS以及TextRank等算法對(duì)句子的得分進(jìn)行計(jì)算,按照句子得分的高低選擇合適數(shù)量的句子生成摘要。Wan等[33]將TextRank擴(kuò)展到SingleRank,通過(guò)在可變大小≥2的窗口中共同出現(xiàn)的單詞之間引入加權(quán)邊。ExpandRank中包含類(lèi)似的相鄰文檔以計(jì)算更準(zhǔn)確字共現(xiàn)信息。Gollapalli等[34]擴(kuò)展了ExpandRank,整合來(lái)自引用網(wǎng)絡(luò)的信息來(lái)研究關(guān)鍵詞的提取,取得了超越當(dāng)前最先進(jìn)基線(xiàn)的良好實(shí)驗(yàn)效果。
Khan等[35]提出了一種多文檔生成式摘要的改進(jìn)語(yǔ)義圖排序算法,它是從源文檔中以圖節(jié)點(diǎn)表示的方式構(gòu)建謂詞變?cè)Y(jié)構(gòu)(PAS, predicate argument structures)的句子語(yǔ)義結(jié)構(gòu),圖邊代表相似性權(quán)重,根據(jù)PAS語(yǔ)義相似度計(jì)算相似性權(quán)重,用改進(jìn)的圖排序算法對(duì)重要圖節(jié)點(diǎn)排序,從中選取排名高的PAS生成摘要句子。Al-Khassawneh等[36]提出了一種基于混合圖的單文檔抽取摘要技術(shù),將余弦相似度(sim1)、Jaccard相似度(sim2)、基于詞對(duì)齊的相似度(sim3)和基于窗口的相似性度量(sim4)4種不同的相似性度量結(jié)合創(chuàng)新了一種混合相似函數(shù)來(lái)用于計(jì)算圖的權(quán)重,一定程度上改良了單純基于TextRank字內(nèi)容重疊計(jì)算權(quán)重的不足。其他圖排序算法[37-39]都是基于各種方法計(jì)算圖節(jié)點(diǎn)的權(quán)重,通過(guò)篩選出重要性程度高的節(jié)點(diǎn)來(lái)生成摘要,都在一定程度上提高了摘要的質(zhì)量。
耿煥同等[40]利用句子之間的共同詞匯,在節(jié)點(diǎn)關(guān)系圖的基礎(chǔ)上提出了一種基于詞共現(xiàn)圖的文本摘要生成的方法,并將條件概率的概念引入詞共現(xiàn)矩陣中,用以構(gòu)造詞共現(xiàn)矩陣。該方法通過(guò)詞共現(xiàn)圖形成的主題信息以及不同主題之間的連接特征信息自動(dòng)提取生成摘要。
基于PageRank、HITS以及TextRank[41]改進(jìn)的圖排序算法都是無(wú)監(jiān)督的,它具有簡(jiǎn)單、語(yǔ)言弱相關(guān)及同時(shí)適合單文本和多文本等眾多優(yōu)點(diǎn),無(wú)需手動(dòng)標(biāo)注數(shù)據(jù)集,相比有監(jiān)督或半監(jiān)督的深度學(xué)習(xí)的文本摘要方法,節(jié)省了一定的時(shí)間和人力。雖然它具有語(yǔ)言獨(dú)立、不需要大量語(yǔ)料訓(xùn)練、節(jié)約時(shí)間等優(yōu)點(diǎn),但是由于無(wú)監(jiān)督學(xué)習(xí)方法還沒(méi)有充分挖掘和利用數(shù)據(jù)之間的關(guān)系,所以雖然文本摘要的效果和質(zhì)量有所提升,但是對(duì)數(shù)據(jù)利用不夠充分,存在局限性,之后的基于有監(jiān)督、半監(jiān)督學(xué)習(xí)的文本摘要方法對(duì)數(shù)據(jù)進(jìn)行了合理利用,相比無(wú)監(jiān)督方法有顯著的性能提升。
有監(jiān)督的機(jī)器學(xué)習(xí)的方法在自然語(yǔ)言處理領(lǐng)域也得到了極其廣泛的利用。監(jiān)督、半監(jiān)督的機(jī)器學(xué)習(xí)方法通過(guò)對(duì)數(shù)據(jù)集的語(yǔ)料進(jìn)行人工標(biāo)注,人為地判定劃分得到句子的文本特征以及句子重要性的關(guān)系模型,在此模型的基礎(chǔ)上,對(duì)未被標(biāo)注的語(yǔ)料進(jìn)行訓(xùn)練,預(yù)測(cè)未被標(biāo)注語(yǔ)料中句子的重要性排序,然后依據(jù)句子重要性排序,依次選取若干句子生成最后所需要的文本摘要。
這種方法類(lèi)似于一個(gè)二分類(lèi)問(wèn)題,對(duì)于某一個(gè)句子,它只有2種可能性:要么是摘要句,要么是非摘要句。首先通過(guò)人工標(biāo)注的方法,把重要句子手動(dòng)標(biāo)注出來(lái),接著在此基礎(chǔ)上提取這些重要句子間的特征,通過(guò)統(tǒng)計(jì)分析學(xué)習(xí)的方法,找到句子重要性與這些特征之間的關(guān)系,最后選擇合適的分類(lèi)器對(duì)其進(jìn)行分類(lèi),然后對(duì)分類(lèi)器參數(shù)進(jìn)行調(diào)整和對(duì)模型加以改進(jìn)得到最佳的分類(lèi)器結(jié)構(gòu),但是這個(gè)過(guò)程中要防止過(guò)擬合的出現(xiàn)。對(duì)分類(lèi)器輸入一個(gè)句子,在分類(lèi)器的輸出端將得到該句子相應(yīng)的重要性得分,依據(jù)重要性得分的高低抽取所需的句子生成摘要。
機(jī)器學(xué)習(xí)的方法很好地利用了計(jì)算機(jī)強(qiáng)大的計(jì)算性能[42-43],借助統(tǒng)計(jì)學(xué)的知識(shí)理論,對(duì)海量的文本信息進(jìn)行高效合理的建模,能夠挖掘出隱藏在海量文本信息中的隱藏屬性。這些機(jī)器學(xué)習(xí)的方法中使用較為廣泛的有樸素貝葉斯算法[44-45]、隱馬爾可夫算法[46]、決策樹(shù)算法[47]等。
通過(guò)上述表達(dá)式,可以為每一個(gè)句子計(jì)算它可能作為文本摘要的概率,然后依次從得分順序由高到低的句子中順次抽取前若干個(gè)句子生成摘要。
Conroy等[49]提出了隱馬爾可夫模型的摘要算法,該算法通過(guò)使用文檔中的一些特征(如句子位置、句內(nèi)詞數(shù)以及句子中詞語(yǔ)與文檔中詞語(yǔ)的相似度等)來(lái)計(jì)算句子得分,然后依據(jù)句子得分生成文本摘要。Lin等[50]假設(shè)用于生成摘要的文檔的各種特征之間是相互的,他們提出了決策樹(shù)的算法來(lái)替代之前提出的貝葉斯分類(lèi)模型來(lái)對(duì)句子進(jìn)行評(píng)分,從中依次選取評(píng)分最高的若干句子生成摘要。
機(jī)器學(xué)習(xí)方法中特征選擇的范圍是相當(dāng)廣泛的,由于訓(xùn)練分類(lèi)器特征的可供選擇性非常廣泛,在本文看來(lái),任意能夠表示句子重要性的特征都可以用來(lái)訓(xùn)練分類(lèi)器。這里所提及的特征有前文中提到的詞頻、線(xiàn)索詞、句子位置、TF-IDF值等簡(jiǎn)單的特征。此外,研究者還嘗試了一些開(kāi)放性的特征,如標(biāo)題詞長(zhǎng),平均句子長(zhǎng)度,平均詞匯連接度,是否包含數(shù)詞、時(shí)間等信息,是否包含代詞、形容詞等詞匯,是否包含命名實(shí)體等特征信息。基于這些開(kāi)放性特征的機(jī)器學(xué)習(xí)的方法在提高生成摘要的可讀性和準(zhǔn)確度上起到了一定的效果。
深度學(xué)習(xí)是利用多層感知器結(jié)構(gòu)對(duì)非線(xiàn)性信息進(jìn)行處理的一種學(xué)習(xí)方法。Hinton等[51]首先提出了深度置信網(wǎng)絡(luò)和相應(yīng)的高效學(xué)習(xí)算法,該算法具有無(wú)監(jiān)督學(xué)習(xí)的能力,降低了對(duì)人工的依賴(lài),可以較為高效地進(jìn)行訓(xùn)練,之后深度學(xué)習(xí)發(fā)展都是在此基礎(chǔ)上進(jìn)行改進(jìn)的。
目前深度學(xué)習(xí)方法在對(duì)自然語(yǔ)言處理方面的基本方向是通過(guò)對(duì)文檔上下文進(jìn)行學(xué)習(xí)訓(xùn)練,對(duì)于中文文檔,還需要先進(jìn)行中文分詞處理,然后將文檔中的詞語(yǔ)、句子分別用連續(xù)實(shí)值向量進(jìn)行表示,形成的向量稱(chēng)為嵌入向量,這樣做是為了方便處理文本語(yǔ)義特征,將詞語(yǔ)、句子用向量表示,在處理文本語(yǔ)義特征時(shí),對(duì)詞向量、句向量直接進(jìn)行向量上的計(jì)算即可表征它們之間的文本語(yǔ)義關(guān)系。
要將自然語(yǔ)言處理的問(wèn)題轉(zhuǎn)化成為一個(gè)機(jī)器學(xué)習(xí)的問(wèn)題,首先需要讓機(jī)器能夠理解自然語(yǔ)言,所以第一步就是將自然語(yǔ)言轉(zhuǎn)化為機(jī)器可以理解的語(yǔ)言,于是想到將它進(jìn)行符號(hào)數(shù)學(xué)化,為了能表示多維特征,增強(qiáng)其泛化能力,想到用向量對(duì)其進(jìn)行表示,因此也就引出了對(duì)詞向量[52-53]、句向量的研究[54]。但是詞向量和句向量的生成仍然具有一定的難度,將文本中不同單詞、句子用詞向量或句向量進(jìn)行唯一的表示,這樣可以方便其在自然語(yǔ)言處理過(guò)程中進(jìn)行各種操作變換和計(jì)算。雖然現(xiàn)在看來(lái)將文本中的詞、句轉(zhuǎn)化成唯一對(duì)應(yīng)的詞、句向量還具有相當(dāng)大的難度,但由于其在自然語(yǔ)言理解中是關(guān)鍵的一步,因此這將是今后研究中亟待解決的問(wèn)題和重點(diǎn)研究的方向之一。
Seqence-to-Sequence模型[55]廣泛應(yīng)用于機(jī)器翻譯、語(yǔ)音識(shí)別、視頻圖片處理、文本摘要等多個(gè)領(lǐng)域?,F(xiàn)在最新的一些基于深度學(xué)習(xí)研究文本摘要生成方法的也都是基于這個(gè)模型進(jìn)行的?;赟eqence-to-Sequence模型的文本摘要需要解決的問(wèn)題是從原文本到摘要文本的映射問(wèn)題。摘要相對(duì)于原文具有大量的信息損失,而且摘要長(zhǎng)度并不會(huì)依賴(lài)于原文本的長(zhǎng)度,所以,如何用簡(jiǎn)短精煉的文字概括描述一段長(zhǎng)文本是文本摘要需要解決的問(wèn)題。最先是基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的Seqence-to-Sequence模型用于文本摘要起到了一定的效果[56],之后考慮到RNN具有長(zhǎng)程依賴(lài)性,為了減小長(zhǎng)程依賴(lài)性,提出了基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)的Seqence-to-Sequence模型用于文本摘要的生成。考慮到句子中的某些特定詞或特定詞性的詞更具有影響句子中心意思的作用,引入了廣泛應(yīng)用于機(jī)器翻譯中的注意力機(jī)制(attention mechanism)[57]對(duì)句子的不同部分賦予不同的偏重,即權(quán)重。Rush等[57]在這個(gè)基礎(chǔ)上提出基于注意力模型的生成式文本摘要,在DUC-2004數(shù)據(jù)集上顯示出了優(yōu)良的性能提升。Rush等首次將深度學(xué)習(xí)應(yīng)用于文本摘要的生成,他們基于Seqence-to-Sequence模型,將卷積模型應(yīng)用于對(duì)原文檔進(jìn)行編碼,然后利用上下文之間的注意力前饋神經(jīng)網(wǎng)絡(luò)生成摘要,在當(dāng)時(shí)取得了很好的效果。Chopra等[58]同樣利用卷積模型對(duì)原文檔進(jìn)行編碼,但使用遞歸神經(jīng)網(wǎng)絡(luò)作為解碼器解碼輸出,取得良好的改進(jìn)效果,大大提高了文本摘要的質(zhì)量。Ramesh等[59]將綜合的RNN[58]和attention機(jī)制的Seqence-to-Sequence模型用于生成文本摘要[60],在文本摘要的準(zhǔn)確性和可讀性上取得了很大的提高。See等[61]利用注意力模型相對(duì)分心機(jī)制來(lái)緩解重復(fù)出現(xiàn)的冗余詞句的權(quán)重,降低注意力權(quán)值大小達(dá)到去除冗余信息的效果,從而大大提高了文本摘要的新穎性。2016年,谷歌也開(kāi)源了基于TensorFlow[62]的一個(gè)自動(dòng)摘要模塊Textsum,該模塊也是利用Seqence-to-Sequence模型,基于深度學(xué)習(xí)的方法自動(dòng)生成新聞標(biāo)題,在質(zhì)量和準(zhǔn)確度上都取得了良好的效果。Sutskever等[63]考慮到RNN具有長(zhǎng)程依賴(lài)性,為了減輕長(zhǎng)程依賴(lài)的影響,將RNN用LSTM網(wǎng)絡(luò)進(jìn)行了替換,在此基礎(chǔ)上取得了良好的改進(jìn)。最近Facebook嘗試把CNN引入自然語(yǔ)言處理中,由于CNN不能處理變長(zhǎng)的序列,在這之前CNN都只應(yīng)用于圖片視頻領(lǐng)域的處理,恰巧Seqence-to-Sequence模型可以很好地處理變長(zhǎng)序列問(wèn)題,所以綜合CNN與Seqence-to-Sequence模型,Gehring等[64]提出了基于CNN的Seqence-to- Sequence模型,成功應(yīng)用于機(jī)器翻譯領(lǐng)域,取得了比之前模型應(yīng)用更優(yōu)的結(jié)果,準(zhǔn)確度超過(guò)了之前其他的所有模型。這同樣也是一個(gè)啟示,是否能夠?qū)⒒贑NN的Seqence-to-Sequence模型成功應(yīng)用到文本摘要的領(lǐng)域取得最優(yōu)的結(jié)果?這也是接下來(lái)要研究的一個(gè)問(wèn)題。Liu[65]將廣泛應(yīng)用于圖像領(lǐng)域的生成對(duì)抗網(wǎng)絡(luò)(GAN, generative adversarial networks)[66]借用于文本摘要領(lǐng)域取得了顯著成效,提出了一種生成式文本摘要的生成對(duì)抗過(guò)程,在這個(gè)過(guò)程中,同時(shí)訓(xùn)練一個(gè)生成模型G和一個(gè)判別模型D。生成器通過(guò)文本的輸入來(lái)預(yù)測(cè)生成摘要,判別器則試圖將機(jī)器生成的摘要與真實(shí)摘要進(jìn)行區(qū)分。在這個(gè)博弈過(guò)程中,雙方不斷提高性能,最后利用訓(xùn)練得到的生成器生成與真實(shí)摘要基本吻合的機(jī)器摘要。
最近,Tan等[67]提出了一個(gè)基于圖的注意力神經(jīng)模型的生成式文本摘要,該文在回顧了基于神經(jīng)網(wǎng)絡(luò)的生成式文本摘要難點(diǎn)的基礎(chǔ)上,提出了一種新穎的基于圖注意力機(jī)制的模型框架。這里仍然使用被廣泛應(yīng)用于機(jī)器翻譯和對(duì)話(huà)系統(tǒng)中的編碼器解碼器的框架,需要特別說(shuō)明的是,這里使用的是一個(gè)分層的編碼器解碼器結(jié)構(gòu),并引入了基于圖的注意力模型。編碼器結(jié)構(gòu)由字編碼器和句編碼器組成,字編碼器將句子中的單詞編碼成句子表示,句編碼器將文檔中的句子編碼成文檔表示。這里用LSTM結(jié)構(gòu)的變體作為字編碼器和句編碼器的網(wǎng)絡(luò)結(jié)構(gòu)。不同于一般的解碼器結(jié)構(gòu),這里使用的是帶注意力機(jī)制的分層解碼器結(jié)構(gòu)。在原始解碼器模型中,生成的代表文檔整體的語(yǔ)義向量對(duì)于所有的輸出,字是相同的,這就需要語(yǔ)義向量作為整個(gè)輸入序列的充分表示。這里引入了注意力機(jī)制,對(duì)解碼器不同發(fā)生狀態(tài)下不同部分的輸入賦予了不同的注意力,減輕了需要記憶整個(gè)輸入序列的負(fù)擔(dān)。分層解碼器中還利用了波束搜索的策略對(duì)句子中的重復(fù)現(xiàn)象進(jìn)行緩解。最后基于圖的抽取式摘要模型的TextRank(Mihalcea 和Tarau于2004年提出)[68]和LexRank(Erkan和Radev于2004年提出)[69]對(duì)文檔中句子的重要性進(jìn)行識(shí)別?;谶@種改進(jìn)的圖注意力的神經(jīng)模型的生成式文本摘要方法實(shí)現(xiàn)了相較先前神經(jīng)摘要模型相當(dāng)大的提升,效果甚至可以與最先進(jìn)的抽取式摘要方法進(jìn)行比較。
總體來(lái)說(shuō),基于深度學(xué)習(xí)的自動(dòng)摘要方法是目前效果最好的方法,但其研究深度和研究數(shù)量還遠(yuǎn)遠(yuǎn)不夠,有待進(jìn)一步深化。
針對(duì)近些年來(lái)國(guó)內(nèi)外文本摘要的各文本摘要方法,對(duì)其優(yōu)缺點(diǎn)進(jìn)行了對(duì)比分析,具體如表1所示。
文本摘要研究初期,以原文檔中的詞、句為基礎(chǔ),基于詞頻、句子位置等簡(jiǎn)單特征從文檔中生成摘要。隨后借助外部語(yǔ)義資源的方法(如詞匯鏈、WordNet語(yǔ)義字典)幫助選取關(guān)鍵詞、關(guān)鍵句,從而生成相應(yīng)摘要。接著出現(xiàn)圖排序的方法,將文本單元中的各種關(guān)系映射到圖論中的頂點(diǎn)與邊的關(guān)系上,利用句子中詞共現(xiàn)頻率、句子相似度、語(yǔ)義關(guān)系等特征生成邊權(quán)重,從而輔助判斷找出句子重要性最高的若干個(gè)句子,較好地解決了結(jié)構(gòu)較為松散且涉及主題較多的文本摘要生成的問(wèn)題。之后,隨著計(jì)算機(jī)性能的顯著提升,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的文本摘要方法興起,樸素貝葉斯算法、隱馬爾可夫算法、決策樹(shù)算法等大量統(tǒng)計(jì)機(jī)器學(xué)習(xí)的算法接連應(yīng)用于文本摘要領(lǐng)域,并在生成文本摘要方法的效果上取得一定的突破。當(dāng)前最流行、效果最顯著的是基于深度學(xué)習(xí)的生成文本摘要,基于深度學(xué)習(xí)的文本摘要方法很好地利用了計(jì)算機(jī)強(qiáng)大的性能對(duì)文檔的局部以及上下文的多維特征同時(shí)學(xué)習(xí),對(duì)特征進(jìn)行編碼向量化,使文檔的上下文特征、句法特征、語(yǔ)義特征等多維特征轉(zhuǎn)化為能夠進(jìn)行計(jì)算的向量特征,方便利用深層網(wǎng)絡(luò)對(duì)其進(jìn)行訓(xùn)練學(xué)習(xí),在文本摘要質(zhì)量上實(shí)現(xiàn)了許多最優(yōu)的實(shí)驗(yàn)結(jié)果。
表1 各文本摘要方法的優(yōu)缺點(diǎn)
展望未來(lái),可能的發(fā)展方向有:1) 對(duì)于文本領(lǐng)域,詞、句的向量表示是極為關(guān)鍵的一個(gè)研究點(diǎn),相信在之后的研究中,詞、句向量的唯一表示也將是文本領(lǐng)域的重中之重;2) 模仿人撰寫(xiě)摘要的模式,融合抽取式和生成式摘要方法生成聯(lián)合摘要;3) 基于語(yǔ)義層面研究進(jìn)一步地深度挖掘句子級(jí)、篇章級(jí)的語(yǔ)義并加以利用來(lái)進(jìn)一步提高文本摘要的語(yǔ)義一致性和可讀性;4) 研究更好的摘要評(píng)估指標(biāo);5) 回望過(guò)去文本摘要方法,預(yù)測(cè)今后的自動(dòng)文本摘要方法大趨勢(shì)還是以深度學(xué)習(xí)為主進(jìn)行,但是傳統(tǒng)方法仍有其特點(diǎn)和優(yōu)勢(shì),如何將深度學(xué)習(xí)和傳統(tǒng)方法結(jié)合起來(lái)生成文本摘要也將是之后的研究重點(diǎn)所在。
[1] CHENG J, LAPATA M. Neural summarization by extracting sentences and words[J]. arXiv preprint arXiv:1603.07252, 2016.
[2] NEMA P, KHAPRA M, LAHA A, et al. Diversity driven attention model for query-based abstractive summarization[J]. arXiv preprint arXiv:1704.08300, 2017.
[3] LI P, LAM W, BING L, et al. Deep recurrent generative decoder for abstractive text summarization[J]. arXiv preprint arXiv:1708.00625, 2017.
[4] BING L, LI P, LIAO Y, et al. Abstractive multi-document summarization via phrase selection and merging[J]. arXiv preprint arXiv:1506.01597, 2015.
[5] LI C, QIAN X, LIU Y. Using supervised bigram-based ilp for extractive summarization[C]//The 51st Annual Meeting of the Association for Computational Linguistics. 2013: 1004-1013.
[6] VEENA G, GUPTA D, JAGANADH J, et al. A graph based conceptual mining model for abstractive text summarization[J]. Indian Journal of Science and Technology, 2016, 9(S1).
[7] DANESH S, SUMNER T, MARTIN J H. Sgrank: combining statistical and graphical methods to improve the state of the art in unsupervised keyphrase extraction[C]//The Fourth Joint Conference on Lexical and Computational Semantics. 2015: 117-126.
[8] FLORESCU C, CARAGEA C. PositionRank: an unsupervised approach to keyphrase extraction from scholarly documents[C]// The 55th Annual Meeting of the Association for Computational Linguistics. 2017: 1105-1115.
[9] LUHN H P. The automatic creation of literature abstracts[J]. IBM Journal of Research and Development, 1958, 2(2): 159-165.
[10] BAXENDALE P B. Machine-made index for technical literature—an experiment[J]. IBM Journal of Research and Development, 1958, 2(4): 354-361.
[11] EDMUNDSON H P. New methods in automatic extracting[J]. Journal of the ACM, 1969, 16(2): 264-285.
[12] SALTON G, YU C T. On the construction of effective vocabularies for information retrieval[C]//ACM SIGIR Forum. 1973: 48-60.
[13] 施聰鶯, 徐朝軍, 楊曉江. TFIDF 算法研究綜述[J]. 計(jì)算機(jī)應(yīng)用, 2009, 29(B06): 167-170.
SHI C Y, XU C J, YANG X J. Study of TFIDF algorithm[J]. Journal of Computer Applications, 2009, 29(B06): 167-170.
[14] 徐文海, 溫有奎. 一種基于 TFIDF 方法的中文關(guān)鍵詞抽取算法[J]. 情報(bào)理論與實(shí)踐, 2008, 31(2): 298-302.
XU W H, WEN Y K. A Chinese keyword extraction algorithm based on TFIDF method[J]. Information Studies: Theory & Application, 2008, 31(2): 298-302.
[15] SUQIN Z B S H M. An improved text feature weighting algorithm based on TFIDF [J]. Computer Applications and Software, 2011, 2: 7.
[16] 李靜月, 李培峰, 朱巧明. 一種改進(jìn)的 TFIDF 網(wǎng)頁(yè)關(guān)鍵詞提取方法[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2011, 28(5): 25-27.
LI J Y, LI P F, ZHU Q M. An improved TFIDF-based approach to extract key words from Wed pages[J]. Computer Applications and Software, 2011, 28(5): 25-27.
[17] EL-BELTAGY S R, RAFEA A. Kp-miner: participation in semeval-2[C]//The 5th International Workshop on Semantic Evaluation, 2010: 190-193.
[18] DANESH S, SUMNER T, MARTIN J H. Sgrank: combining statistical and graphical methods to improve the state of the art in unsupervised keyphrase extraction[C]//The Fourth Joint Conference on Lexical and Computational Semantics. 2015: 117-126.
[19] FLORESCU C, CARAGEA C. PositionRank: an unsupervised approach to keyphrase extraction from scholarly documents[C]// The 55th Annual Meeting of the Association for Computational Linguistics, 2017: 1105-1115.
[20] PADMALAHARI E, KUMAR D V N S, PRASAD S. Automatic text summarization with statistical and linguistic features using successive thresholds[C]// 2014 International Conference on Advanced Communication Control and Computing Technologies (ICACCCT). 2014: 1519-1524.
[21] MILLER G A. WordNet: a lexical database for English[J]. Communications of the ACM, 1995, 38(11): 39-41.
[22] BARZILAY R, ELHADAD M. Using lexical chains for text summarization[J]. Advances in Automatic Text Summarization, 1999: 111-121.
[23] JAIN A, GAUR A. Summarizing long historical documents using significance and utility calculation using WordNet[J]. Imperial Journal of Interdisciplinary Research, 2017, 3(3).
[24] SILBER H G, MCCOY K F. Efficient text summarization using lexical chains[C]//The 5th International Conference on Intelligent user interfaces. ACM, 2000: 252-255.
[25] KOLLA M. Automatic text summarization using lexical chains: algorithms and experiments[D]. University of Lethbridge, 2004.
[26] POURVALI M, ABADEH M S. Automated text summarization base on lexicales chain and graph using of wordnet and wikipedia knowledge base[J]. arXiv preprint arXiv:1203.3586, 2012.
[27] HOU S, HUANG Y, FEI C, et al. Holographic lexical chain and its application in chinese text summarization[C]//Asia-Pacific Web (APWeb) and Web-Age Information Management (WAIM) Joint Conference on Web and Big Data. 2017: 266-281.
[28] LYNN H M, CHOI C, KIM P. An improved method of automatic text summarization for Web contents using lexical chain with semantic-related terms[J]. Soft Computing, 2018, 22(12): 4013-4023.
[29] PAL A R, SAHA D. An approach to automatic text summarization using WordNet[C]//IEEE International Conference on Advance Computing Conference (IACC). 2014: 1169-1173.
[30] PAGE L, BRIN S, MOTWANI R, et al. The PageRank citation ranking: bringing order to the Web[R]. Stanford InfoLab, 1999.
[31] KLEINBERG J M, KUMAR R, RAGHAVAN P, et al. The Web as a graph: measurements, models, and methods[C]//International Computing and Combinatorics Conference, 1999: 1-17.
[32] MIHALCEA R. Graph-based ranking algorithms for sentence extraction, applied to text summarization[C]//Proceedings of the ACL 2004 on Interactive Poster And Demonstration Sessions. Association for Computational Linguistics, 2004: 20.
[33] WAN X, XIAO J. Single document keyphrase extraction using neighborhood knowledge[C]//AAAI. 2008, 8: 855-860.
[34] GOLLAPALLI S D, CARAGEA C. Extracting keyphrases from research papers using citation networks[C]//AAAI. 2014: 1629-1635.
[35] KHAN A, SALIM N, FARMAN H, et al. Abstractive text summarization based on improved semantic graph approach[J]. International Journal of Parallel Programming, 2018: 1-25.
[36] AL-KHASSAWNEH Y A, SALIM N, JARRAH M. Improving triangle-graph based text summarization using hybrid similarity function[J]. Indian Journal of Science and Technology, 2017, 10(8).
[37] WEI F, LI W, LU Q, et al. A document-sensitive graph model for multi-document summarization[J]. Knowledge and Information Systems, 2010, 22(2): 245-259.
[38] GE S S, ZHANG Z, HE H. Weighted graph model based sentence clustering and ranking for document summarization[C]// 2011 4th International Conference on Interaction Sciences (ICIS). 2011: 90-95.
[39] NGUYEN-HOANG T A, NGUYEN K, TRAN Q V. TSGVi: a graph-based summarization system for Vietnamese documents[J]. Journal of Ambient Intelligence and Humanized Computing, 2012, 3(4): 305-313.
[40] 耿煥同, 蔡慶生, 趙鵬, 等. 一種基于詞共現(xiàn)圖的文檔自動(dòng)摘要研究[J]. 情報(bào)學(xué)報(bào), 2005, 24(6): 652.
GENG H T, CAI Q S, ZHAO P, et al. Research on document automatic summarization based on word co-occurrence[J]. Journal of the China Society for Scientific and Technical Information, 2005, 24(6): 652.
[41] SEHGAL S, KUMAR B, RAMPAL L, et al. A modification to graph based approach for extraction based automatic text summarization[M]//Progress in Advanced Computing and Intelligent Engineering. Singapore Springer Press, 2018: 373-378.
[42] YOUSEFI-AZAR M, HAMEY L. Text summarization using unsupervised deep learning[J]. Expert Systems with Applications, 2017, 68: 93-105.
[43] ARRAS L, HORN F, MONTAVON G, et al. What is relevant in a text document? an interpretable machine learning approach[J]. PloS one, 2017, 12(8): e0181142.
[44] THU H N T. An optimization text summarization method based on naive bayes and topic word for single syllable language[J]. Applied Mathematical Sciences, 2014, 8(3): 99-115.
[45] SILVA G, FERREIRA R, LINS R D, et al. Automatic text document summarization based on machine learning[C]//2015 ACM Symposium on Document Engineering. ACM, 2015: 191-194.
[46] NISHIKAWA H, ARITA K, TANAKA K, et al. Learning to generate coherent summary with discriminative hidden semi-markov model[C]//The 25th International Conference on Computational Linguistics: Technical Papers. 2014: 1648-1659.
[47] ALLAHYARI M, POURIYEH S, ASSEFI M, et al. A brief survey of text mining: classification, clustering and extraction techniques[J]. arXiv preprint arXiv:1707.02919, 2017.
[48] KUPIEC J, PEDERSEN J, CHEN F. A trainable document summarizer[C]//The 18th annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 1995: 68-73.
[49] CONROY J M, O'LEARY D P. Text summarization via hidden markov models[C]//The 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2001: 406-407.
[50] LIN C Y. Training a selection function for extraction[C]//The Eighth International Conference on Information and Knowledge Management. ACM, 1999: 55-62.
[51] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.
[52] MRK?I? N, VULI? I, SéAGHDHA D ó, et al. Semantic specialisation of distributional word vector spaces using monolingual and cross-lingual constraints[J]. arXiv preprint arXiv:1706.00374, 2017.
[53] XIONG Z, SHEN Q, WANG Y, et al. Paragraph vector representation based on word to vector and CNN learning[J]. CMC: Computers, Materials & Continua, 22018, 55(2): 213-227.
[54] WANG X, ZHANG H, LIU Y. Sentence vector model based on implicit word vector expression[J]. IEEE Access, 2018, 6: 17455-17463.
[55] SUTSKEVER I, VINYALS O, Le Q V. Sequence to sequence learning with neural networks[C]//Advances in neural information processing systems. 2014: 3104-3112.
[56] NALLAPATI R, XIANG B, ZHOU B. Sequence-to-sequence rnns for text summarization[J]. arXiv preprint arXiv: 1602.06023v1, 2016.
[57] RUSH A M, CHOPRA S, WESTON J. A neural attention model for abstractive sentence summarization[J]. arXiv preprint arXiv: 1509. 00685, 2015.
[58] CHOPRA S, AULI M, RUSH A M. Abstractive sentence summarization with attentive recurrent neural networks[C]//The 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2016: 93-98.
[59] NALLAPATI R, ZHOU B, GULCEHRE C, et al. Abstractive text summarization using sequence-to-sequence RNNS and beyond[J]. arXiv preprint arXiv:1602.06023v5, 2016.
[60] CAO Z, LI W, LI S, et al. Attsum: Joint learning of focusing and summarization with neural attention[J]. arXiv preprint arXiv:1604. 00125, 2016.
[61] SEE A, LIU P J, Manning C D. Get to the point: summarization with pointer-generator networks[J]. arXiv preprint arXiv:1704.04368, 2017.
[62] ABADI M, BARHAM P, CHEN J, et al. TensorFlow: a system for large-scale machine learning[C]//OSDI. 2016: 265-283.
[63] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C]//Advances in Neural Information Processing Systems. 2014: 3104-3112.
[64] GEHRING J, AULI M, GRANGIER D, et al. Convolutional sequence to sequence learning[J]. arXiv preprint arXiv:1705.03122, 2017.
[65] LIU L, LU Y, YANG M, et al. Generative adversarial network for abstractive text summarization[J]. arXiv preprint arXiv:1711. 09357, 2017.
[66] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems. 2014: 2672-2680.
[67] TAN J, WAN X, XIAO J. Abstractive document summarization with a graph-based attentional neural model[C]//The 55th Annual Meeting of the Association for Computational Linguistics. 2017: 1171-1181.
[68] MIHALCEA R, TARAU P. Textrank: bringing order into text[C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. 2004.
[69] ERKAN G, RADEV D R. Lexrank: graph-based lexical centrality as salience in text summarization[J]. Journal of Artificial Intelligence Research, 2004, 22: 457-479.
Research progress and trend of text summarization
MING Tuosiyu, CHEN Hongchang
National Digital Switching System Engineering & Technological R&D Center, Zhengzhou 450002, China
With the explosive growth of information on the Internet, how to extract useful information from massive information has become a key technical issue. The text summarization technology can compress and extract refined and concise document information from big data, effectively reducing the user information overload problem, and it has become a research hotspot. The domestic and foreign text summarization methods and their concrete realization in recent years were analyzed, the advantages and disadvantages between traditional methods and deep learning summary methods were compared, and a reasonable outlook for future research directions was made.
big data, text summarization, machine learning,traditional methods, deep learning
TP393
A
10.11959/j.issn.2096-109x.2018048
2018-05-02;
2018-06-01
明拓思宇,1139446336@qq.com
國(guó)家自然科學(xué)基金青年科學(xué)資助項(xiàng)目(No.61601513)
The National Natural Science Foundation of Youth Science (No.61601513)
明拓思宇(1994-),男,湖南長(zhǎng)沙人,國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心碩士生,主要研究方向?yàn)槲谋菊?/p>
陳鴻昶(1964-),男,河南鄭州人,國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心教授、博士生導(dǎo)師,主要研究方向?yàn)殡娦啪W(wǎng)信息安全。