李 峰,黃金柱,李舟軍,楊偉銘
1.北京航空航天大學計算機學院,北京1001912.中國人民解放軍后勤科學研究所,北京1001663.中國人民解放軍外國語學院語言工程系,河南洛陽471003
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology 1673-9418/2016/10(03)-0372-09
?
使用關鍵詞擴展的新聞文本自動摘要方法*
李峰1,2+,黃金柱3,李舟軍1,楊偉銘2
1.北京航空航天大學計算機學院,北京100191
2.中國人民解放軍后勤科學研究所,北京100166
3.中國人民解放軍外國語學院語言工程系,河南洛陽471003
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology 1673-9418/2016/10(03)-0372-09
E-mail: fcst@vip.163.com
http://www.ceaj.org
Tel: +86-10-89056056
* The National Natural Science Foundation of China under Grant Nos. 61170189, 61370126, 61202239 (國家自然科學基金); the National High Technology Research and Development Program of China under Grant No. 2015AA016004 (國家高技術研究發(fā)展計劃(863計劃)); the Fund of the State Key Laboratory of Software Development Environment under Grant No. SKLSDE-2015ZX-16(軟件開發(fā)環(huán)境國家重點實驗室探索性自主研究課題基金).
Received 2015-08,Accepted 2015-10.
CNKI網絡優(yōu)先出版: 2015-10-30, http://www.cnki.net/kcms/detail/11.5602.TP.20151030.1605.002.html
Key words: keyword expansion; similar topic text; automatic summarization; graph algorithm; system implementation
摘要:提出了使用關鍵詞擴展的新聞文本自動摘要方法。該方法從大規(guī)模的語料中提取與輸入文檔相近主題的文本組成背景語料,并基于背景語料進行關鍵詞的擴展,強化關鍵詞對文摘句的指示作用,從而提高新聞文本摘要抽取質量。研究和實驗表明,該方法在Rouge-1、Rouge-2評測中取得了優(yōu)于基于關鍵詞、基于TextRank和基于Manifold Ranking方法的結果。在研究中組織制定了100篇新聞文本的4份中文新聞文本標準評價集,研制了基于關鍵詞擴展的中文新聞文本自動摘要系統(tǒng),開發(fā)了面向中文的基于ROUGE原理的新聞文本摘要結果自動評測系統(tǒng),初步實現了從理論到實踐的轉化。
關鍵詞:擴展;相近文本;自動摘要;圖算法;系統(tǒng)實現
自2001年美國國家標準技術研究所(National Institute of Standards and Technology,NIST)舉辦文檔理解會議(Document Understanding Conference,DUC)以來,文本自動摘要研究得到了越來越多的關注。對于通用型自動文摘系統(tǒng)而言,Nenkova[1]研究發(fā)現,單文檔摘要自動生成的難度往往與人們的直覺相反,要難于多文檔摘要的自動生成。其根本原因是單文本自動摘要文檔信息較少,可以利用的支撐信息不足,增加了單文本摘要句的判斷難度[2-3]。
針對支撐信息不足的問題,近年來研究者們從兩個方面進行了深入的研究:
一種是深入考察文本內部多種不同單元的相互關系,如詞-句關系[4]、句-段關系[5]等,并通過圖來表示這種關系,用迭代算法來確定文摘句,代表性的算法主要有TextRank[6]、LexRank[7]、Manifold Ranking[8]、GRASSHOPPER[9]等,這些算法根據PageRank[10]的思想,通過投票得分的多少來確定候選文摘句的重要程度。為取得更好的效果,也有學者嘗試了基于多層圖排序[4-5,11]的算法,并取得了相對較好的實驗結果。
另一種是通過引入第三方資源,如領域語料[12-13]、維基百科[14]、超鏈接信息和網頁點擊日志[15-16]等來豐富文本信息,提高文摘句計算的準確度。如Louis[12]使用貝葉斯分類算法按照預先設定的領域語料,判斷輸入文檔中詞的新穎度,并據此進行更新式摘要文摘句的抽取;Delort[15]使用網頁超鏈接數據信息來提高單個網頁文本自動摘要的準確度;Sun等人[16]使用用戶點擊數據來進行網頁文本的自動摘要生成。第三方資源的引入擴展了輸入文檔的可計算信息,單文本自動摘要的質量也隨之得到了提升。
本文的研究屬于引入第三方資源擴展的方法,不同的是本文提出的方法是從關鍵詞指示作用入手,通過擴展并強化這種作用來提高文摘抽取的質量。在方法中,首先使用關鍵詞抽取組件抽取輸入文檔的關鍵詞,并與標題詞合并生成關鍵詞列表;其次依據抽取的關鍵詞列表從大規(guī)模語料中抽取與輸入文本主題相近的N篇語料組成一個臨時的背景語料庫,然后基于該背景語料庫抽取與主題相關詞;最后進行兩級關鍵詞的融合,再采用相關算法進行文摘句的抽取。本文方法的價值和創(chuàng)新主要有:
(1)設計了一套基于關鍵詞擴展的中文新聞文本自動摘要抽取算法,通過基于Rouge的實驗表明,本文算法在中文新聞文本自動摘要場景下能夠取得較好的文摘質量。
(2)在中文文本自動摘要領域,尚沒有一份公開的標準參考摘要,一定程度上延緩了面向中文的自動摘要研究。本文從多家媒體挑選了100篇覆蓋多個主題的新聞文本,并制定了4份共400篇人工摘要,實驗表明參考摘要具備較好的參考價值。
(3)實現了基于關鍵詞、基于TextRank[6]和基于Manifold Ranking[8]的文摘抽取算法;實現了基于關鍵詞擴展方法的中文新聞文本自動摘要系統(tǒng),實現了面向評測集的人工摘要制定輔助工具;研制了基于Rouge評測原理的中文新聞文本自動摘要評價系統(tǒng)。
本文設計的新聞文本自動摘要方法可分解為兩部分:一是利用大規(guī)模語料進行關鍵詞擴展;二是利用擴展后的關鍵詞來抽取文摘??傮w流程如圖1所示。
Fig.1 Flow-process diagram of method圖1 方法流程圖
主要步驟為:
(1)使用關鍵詞抽取組件從輸入文檔中抽取關鍵詞,得到一級關鍵詞集={k1,k2,…,ki}。
2.1基于相近語料的關鍵詞擴展算法
基于相近語料的關鍵詞擴展算法包括兩個部分:一是基于大規(guī)模語料的主題相近文本的提??;二是基于提取的文本進行關鍵詞擴展。
2.1.1基于大規(guī)模語料的主題相近文本提取
一般而言,文本的關鍵詞能夠較大程度上承載文本的主題,兩篇文本的關鍵詞重疊度越高,則可以認為兩者表述的主題可能就越相近?;诖耍疚脑O計了一種從大規(guī)模語料提取主題相近文本的方法。該方法通過考察輸入文檔關鍵詞在語料中的分布來獲取相近文檔,主要涉及關鍵詞抽取以及基于關鍵詞分布的主題相近文本獲取。在關鍵詞抽取部分,本文直接利用NLPIR2015(http://ictclas.nlpir.org/ downloads)關鍵詞抽取組件抽取關鍵詞,并使用關鍵詞作為倒排索引項對大規(guī)模語料庫進行倒排。在倒排索引構建完成后,對于輸入的任意一篇文檔,使用如下算法從大規(guī)模語料庫中提取主題相近的文本:
算法1主題相近文本提取算法
輸入:輸入文檔;要提取的主題相近文本個數n。
輸出:n篇與輸入文檔主題最為相近的文檔列表。
算法1中,mergedKeyWordsToDict函數用于合并正文關鍵詞與標題關鍵詞,在合并前先為標題關鍵詞分配正文關鍵詞的平均得分值,合并時選擇正文關鍵詞中沒有的或者得分高于正文關鍵詞的標題詞加入列表,作為合并結果。由于每篇新聞的關鍵詞集元素不重復,輸入文檔中的關鍵詞集元素也保持了唯一性,在文檔長度差異不大時,包含輸入文檔的關鍵詞個數越多,即關鍵詞交疊次數越多,則可認為其與輸入文檔主題越相近。為降低計算復雜度,在建立索引和處理輸入文檔時,算法進行了粗略處理,統(tǒng)一把內容關鍵詞抽取個數限制為8個。
2.1.2基于主題相近文本的關鍵詞擴展
文本中距離越相近的實詞往往語義越相關,主題越相近的文本中相關詞同現的可能性越高。例如“根據救災需要不斷增加救援隊伍、醫(yī)療專家、機械裝備、物資藥品和應急資金等”這句話中,“醫(yī)療”、“專家”、“裝備”、“物資”、“藥品”這些詞,因在同一個句子中共現而具有一定的相關性;在描述救災主題的文本中這些詞中的幾個或全部也經常出現,即這些詞對“救災”亦有指示作用。根據這一思路,本文設計了一種基于主題相近文本的關鍵詞擴展方法。該方法在同一相近主題文本集合中,通過考察輸入關鍵詞左右一定跨距內的實詞相關程度來進行擴展,在測量實詞與輸入關鍵詞的相關程度時,主要考查其出現的頻數以及與關鍵詞間的距離。基于相近文本的關鍵詞擴展算法如下:
算法2基于相近文本的關鍵詞擴展算法
輸入:輸入文檔,關鍵詞集topKeyWords,相近文本集similarDocuments,要提取的相關詞個數為x,關鍵詞相關詞允許的最大跨距為p。
輸出:帶有相關度得分值的相關詞表。
算法2中,computeKeyWords函數負責為關鍵詞從相近文檔中提取相關詞,其通過統(tǒng)計關鍵詞在相近文檔中p個跨距范圍內的實詞作為候選相關詞,在統(tǒng)計結束后,對于每個相關詞而言,若其出現的頻率為f,與ki的距離算術均值為g,則使用式(1)計算其與關鍵詞的相關度得分s:得到當前關鍵詞的相關詞列表后,按得分值倒序排列,依次取x個詞組成最終相關詞列表并進行分值歸一化處理后返回。在遍歷完關鍵詞集后,可以得到所有關鍵詞的相關詞集合。
因每個關鍵詞在輸入文檔中的關鍵程度不同,則其相關詞對輸入文檔摘要句的指示作用也應存在差異,在算法中使用關鍵詞與相關詞得分的乘積作為相關詞的最終得分。
2.2基于關鍵詞擴展的文摘句抽取
在獲取輸入文檔的關鍵詞集K及其相關詞集T后,基于這些詞對文摘句的指示作用來抽取文摘句,具體方法是:通過計算句子S包含關鍵詞及擴展詞的個數以及這些詞的得分來確定文摘候選句權重的大小。句子S的權重值Sscore計算公式如下:
其中,lw為關鍵詞或擴展詞詞長;ls為當前句長;vw為關鍵詞或擴展詞的得分值。
3.1中文新聞文本自動摘要系統(tǒng)的實現
基于前文描述的思路及相關算法,本文采用C# 4.0編程語言實現了一套中文新聞文本自動摘要系統(tǒng),主界面如圖2所示。
Fig.2 Automatic summarization system for Chinese news text圖2 中文新聞文本自動摘要系統(tǒng)
3.2實驗設計與結果分析
3.2.1參與評測的文摘抽取算法
為檢驗算法的有效性以及最終抽取的摘要結果質量,選取基于關鍵詞的文摘抽取算法、TextRank算法和Manifold Ranking算法作為實驗的Baseline。其中,基于關鍵詞的算法根據句子包含關鍵詞數目的多少來確定文摘句,是一種機械式方法;TextRank算法為無指導的圖排序方法;Manifold Ranking算法為有指導的圖排序方法。后兩種算法具備較好的代表性,取得了相對較好的實驗結果[6,8]。
3.2.2實驗數據
實驗以新浪2012年共150 366篇新聞語料作為語料支撐(http://news.sina.com.cn),采用NLPIR2015分詞和抽取關鍵詞。在評測過程中,為保證數據的科學性,從23家網絡或報紙媒體采集了2014年10月27日至11月4日期間共341篇新聞文本作為候選參評語料,在剔除句子總數小于5個以及一些視頻、訪談或花邊娛樂新聞后,取100篇新聞參與文本摘要自動摘取測試,這100篇新聞涉及政治、法律、反恐、環(huán)境治理、自然災害、官員貪腐、疾病防治等多個主題。在實驗之前,對這100篇新聞進行了預處理,包括去除網絡標記符、統(tǒng)一編碼格式和人工輔助的文本校對與斷句等。之后,組織了4位具有碩士以上學歷的不同領域人員對上述100篇新聞抽取摘要。在摘要處理時,根據中文新聞撰寫風格要求盡量保留新聞首句作為文摘句,且不允許對摘錄的句子進行人工修改,經測試后確定摘要句抽取比例為原文句子數的30%,當句子數不是整數時,取其整數的上邊界數為摘要句個數。最后得到了4份共400篇摘要結果作為參考摘要。
3.2.3評測方法及工具
文本自動摘要結果的評價,比較著名的是由Lin[17]提出的基于n-gram共現的ROUGE(recall oriented understudy for gisting evaluation)評測方法。該方法的評測結果與人工評測結果具有良好的相關性,并且更加客觀,已成為文摘評價技術的通用標準之一[18]。目前基于ROUGE的文本自動摘要評價對象以及相應的參考摘要集多為基于英文的文本,還沒有一個公開可用的中文新聞文本評價工具和評價集,也沒有一個適用于中文文摘評價的ROUGE工具集。而如果使用人工打分的方式進行摘要結果的評測,不可避免地會帶來較大的主觀性。
本文在深入研究ROUGE評價原理及工具的基礎上,開發(fā)了相應的中文新聞文本ROUGE評價工具,如圖3所示。
Fig.3 ROUGE evaluation tool for Chinese news text automatic summarization圖3 中文新聞文本自動摘要ROUGE評價工具
在評測過程中,使用Rouge-1、Rouge-2兩種評價指標來考察每種算法抽取文摘的質量。在計算得分值時,實驗以是否包含新聞首句,是否以實詞(詞性標注結果為動詞、名詞或形容詞的詞)為統(tǒng)計指標進行組合,從4個角度對比考察各種方法的實際效果。在基于TextRank和Manifold Ranking算法中,依據句子間重疊的實詞個數來測量相似度大小[19],其中在TextRank算法中圖節(jié)點間插入邊的條件是句子相似度值大于0.05[4];在Manifold Ranking算法中,取新聞文本的首句作為流形排序的指導句。
3.2.4評測結果分析
在新聞文本中,首句往往是新聞的導語,涵蓋相對較多的新聞要素,并對全文起著提綱挈領的作用;同時,在句子中實詞相對而言更能表達文本的意義。在實驗評測中,基于上述評測數據和方法,以是否包含首句,是否僅統(tǒng)計實詞作為分類方法,將所有機器摘要與人工摘要的Rouge-1、Rouge-2得分情況數據進行匯總。其中,KW-Based、KWE-Based、TRBased和MFR-Based分別代表基于關鍵詞、基于關鍵詞擴展、基于TextRank和基于Manifold Ranking的方法,Refer-1、Refer-2、Refer-3、Refer-4分別代表4份人工制定的參考摘要。下文首先針對參考摘要進行評測,以確保參考摘要的質量;其次分析基于關鍵詞擴展方法取得的摘要結果;最后分別就該方法與其他3種方法進行對比實驗,并進行總結。
(1)對參考摘要的評測。文本的難度以及人們不同的認知背景會對參考摘要的質量帶來較大的影響,為確保參考摘要集具備較好的穩(wěn)定性和參考價值,分別選取4份參考摘要以全部參考摘要集為對象,進行Roug-1和Rouge-2的評測。從表1的數據可以看出,4份摘要在不同的測試條件和評測指標中,均保持了較好的穩(wěn)定性,表明了本文人工制定的4份中文新聞文本摘要具備較好的參考價值。
(2)基于關鍵詞擴展的方法。本文方法取得的文摘質量評測結果如表2所示。從結果來看,在摘要結果中包含首句,當不考慮詞性時,兩種評測指標均取得了較好的得分值,而當去除虛詞時,得分出現較為明顯的跌落。同時,在不同條件下采用不同的評測方式,最高得分與最低得分之間差距十分明顯,高達約33.0個百分點,約占最高得分值的42.8%,并接近于最低得分值。
(3)與基于關鍵詞的方法相比?;陉P鍵詞的方法是一種簡單的未經擴展的文摘抽取方法,其各項評測分值如表3所示??梢钥闯?,基于關鍵詞的方法得分要低于表2中基于關鍵詞擴展方法的各項得分,且當采用不同的條件及評測方式時,基于關鍵詞的方法最高得分與最低得分值間的差異高達38.6個百分點,這種方式抽取的摘要在穩(wěn)定性上表現較差,摘要結果與人工摘要結果差異較大。不難發(fā)現,基于關鍵詞擴展的方法要明顯優(yōu)于僅基于關鍵詞的方法。
(4)與基于TextRank的方法相比?;赥extRank的方法取得的結果如表4所示。與基于關鍵詞擴展的方法相比,兩者各項得分值相差不大,但基于關鍵詞擴展的方法要略優(yōu)。在不同的條件下采用不同的評測方式,TextRank方法最高值與最低值間的差異約為34.2個百分點,在穩(wěn)定性上比基于關鍵詞擴展的方法低1.2個百分點。
(5)與基于Manifold Ranking的方法相比?;贛anifold Ranking的方法取得的文摘評測結果如表5所示。在Rouge-1和Rouge-2評測中,該方法得分值均低于基于關鍵詞擴展的方法。在不同的條件下采用不同的評測方式,Manifold Ranking方法最高值與最低值間的差異約為31.0個百分點,在整體穩(wěn)定性上表現最佳。經仔細分析發(fā)現,在實驗中基于Manifold Ranking的方法選擇了新聞的首句作為指導句,而新聞首句往往對全文起著提綱挈領的作用,在Manifold Ranking迭代計算時無論是否要求在結果中包含首句,總會受到新聞首句的影響,這就保證了不會出現極差的文摘抽取結果,從而在穩(wěn)定性上表現較好。
Table 1 ROUGE evaluation score of four reference summaries表1 4份參考摘要的ROUGE評測得分
Table 2 Evaluation results of KWE-Based表2 基于關鍵詞擴展方法的摘要評測結果
Table 3 Evaluation results of KW-Based表3 基于關鍵詞方法的摘要結果評測
Table 4 Evaluation results of TR-Based表4 基于TextRank方法的摘要評測結果
Table 5 Evaluation results of MFR-Based表5 基于Manifold Ranking方法的摘要評測結果
3.2.5結論
本文采用不同的方法作為對比參考,使用多個評測指標對基于關鍵詞擴展的方法進行了全面的測試。從評測結果可以得到以下結論:
(1)基于關鍵詞擴展的文本自動摘要方法在Rouge-1、Rouge2評測中,取得了優(yōu)于基于關鍵詞、TextRank和Manifold Ranking方法的結果;在穩(wěn)定性上,得益于新聞首句的指導作用,Manifold Ranking方法略占優(yōu)勢,但本文方法與基于關鍵詞和基于Text-Rank方法相比依然較好。
(2)首句對新聞文本的摘要質量影響較大,是否包含首句會為各種方法的文摘評測結果帶來至少10個百分點的得分差異;在Rouge-1、Rouge-2評測中,是否僅考慮實詞也會為評測結果帶來5到10個百分點的得分差異??梢哉J為,新聞文本首句對文摘質量影響較大,同時是否考慮詞性也會影響對文摘結果的評測。
(3)無論采用何種評測方式,機器摘要與人工摘要間的差距還是比較明顯的,幾種算法在抽取文摘結果質量的穩(wěn)定性上還需要進一步加強。
本文設計了一種快速提取相近文本的方法,設計了基于背景語料的關鍵詞擴展及融合方法,并基于關鍵詞的擴展實現了一套中文新聞文本自動摘要系統(tǒng);為評測方法抽取文摘的有效性,為100篇新聞制定了4份標準的人工摘要作為評測集,并設計開發(fā)了適用于中文新聞文本摘要的ROUGE評價工具,最后進行了文摘抽取實驗,并對實驗結果進行了對比分析。研究表明,通過從大規(guī)模語料中提取與輸入文檔主題相近的文本組成背景語料,并基于這些背景語料對輸入文檔的關鍵詞進行擴展融合,能夠進一步增強關鍵詞對文摘句的指示作用,并取得相對較好的文摘結果。下一步,將在各種方法的融合上開展進一步的研究,并嘗試在短文本摘要領域以及其他語種文本自動摘要領域進行新的探索。
References:
[1] Nenkova A. Automatic text summarization of newswire: lessons learned from the document understanding conference[C]//Proceedings of the 20th National Conference on Artificial Intelligence and the 17th Innovative Applications of Artificial Intelligence Conference, Pittsburgh, USA, Jul 9-13, 2005. Cambridge, USA: MIT Press, 2005: 1436-1441.
[2] Jones K S. Automatic summarizing: the state of the art[J]. Information Processing and Management, 2007, 43(6): 1449-1481.
[3] Elfayoumy S, Thoppil J. A survey of unstructured text summarization techniques[J]. International Journal of Advanced Computer Science and Applications, 2014, 5(4): 149-154.
[4] Wan Xiaojun, Yang Jianwu, Xiao Jianguo. Towards an iterative reinforcement approach for simultaneous document summarization and keyword extraction[C]//Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics, Prague, Czech Republic, Jun 23-30, 2007. Stroudsburg, USA:ACL, 2007: 552-559.
[5] Xie Hao, Sun Wei. Paragraph-sentence mutual reinforcement based automatic summarization algorithm[J]. Computer Science, 2013, 40(11A): 246-250.
[6] Mihalcea R, Tarau P. TextRank: bringing order into texts [C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, Barcelona, Spain, Jul 25-26, 2004. Stroudsburg, USA:ACL, 2004: 404-411.
[7] Gunes E, Radev D R. LexRank: graph-based lexical centrality as salience in text summarization[J]. Journal of Artificial Intelligence Research, 2004, 22(1): 457-479.
[8] Wan Xiaojun, Yang Jianwu, Xiao Jianguo. Manifold-ranking based topic-focused multi-document summarization[C]// Proceedings of the 20th International Joint Conference on Artificial Intelligence, Hyderabad, India, Jan 6-12, 2007. Berlin, Heidelberg: Springer, 2007: 2903-2908.
[9] Zhu Xiaojin, Goldberg A, van Gael J, et al. Improving diversity in ranking using absorbing random walks[C]//Proceedings of the Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics, New York, USA, Apr 22-27, 2007. Stroudsburg, USA:ACL, 2007: 97-104.
[10] Liu Tongtong. The research and implementation of the Page-Rank algorithm with the correlation[D]. Haikou: Hainan University, 2009.
[11] Deng Hongbo, Lyu M R, King I.Ageneralized co-HITS algorithm and its application to bipartite graphs[C]//Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Paris, France, Jun 28-Jul 1, 2009. New York, USA:ACM, 2009: 239-248.
[12] Louis A. A Bayesian method to incorporate background knowledge during automatic text summarization[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, Baltimore, USA, Jun 22-27, 2014. Stroudsburg, USA:ACL, 2014: 333-338.
[13] Reddy P V, Vardhan B V, Govardhan A A. Corpus based extractive document summarization for indic script[C]//Proceedings of the 2011 International Conference on Asian Lan-guage Processing, Penang, Malaysia, Nov 15- 17, 2011. Washington, USA: IEEE Computer Society, 2011: 154-157.
[14] Pourvali M. A new graph based text segmentation using Wikipedia for automatic text summarization[J]. International Journal of Advanced Computer Science and Applications, 2012, 3(1): 35-39.
[15] Delort J Y, Bouchon-Meunier B, Rifqi M. Enhanced Web document summarization using hyperlinks[C]//Proceedings of the 14th ACM Conference on Hypertext and Hypermedia, Nottingham, UK, Aug 26-30, 2003. New York, USA: ACM, 2003: 208-215.
[16] Sun Jiantao, Shen Dou, Zeng Huajun, et al. Web-page summarization using clickthrough data[C]//Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Salvador, Brazil, Aug 15-19, 2005. New York, USA:ACM, 2005:194-201.
[17] Lin C Y. ROUGE: a package for automatic evaluation of summaries[C]//Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics, Barcelona, Spain, Jul 21-26, 2004. Stroudsburg, USA:ACL, 2004: 74-81.
[18] Ng J P, Bysani P, Lin Ziheng, et al. Exploiting categoryspecific information for multi-document summarization[C]// Proceedings of the 24th International Conference on Computational Linguistics, Mumbai, India, Dec 8-15, 2012: 2093-2108.
[19] Zhang Peiying. Model for sentence similarity computing based on multi-features combination[J]. Computer Engineering and Applications, 2010, 46(26): 136-137.
附中文參考文獻:
[5]謝浩,孫偉.基于段落-句子互增強的自動文摘算法[J].計算機科學, 2013, 40(11A): 246-250.
[10]劉彤彤.融入了相關性的PageRank算法的研究與實現[D].海口:海南大學, 2009.
[19]張培穎.多特征融合的語句相似度計算模型[J].計算機工程與應用, 2010, 46(26): 136-137.
LI Feng was born in 1982. He received the Ph.D. degree in computational linguistics from PLA University of Foreign Languages in 2012. Now he is a postdoctoral fellow at School of Computer Science and Engineering, Beihang University. His research interests include natural language processing, big data analytics and corpus linguistics, etc.李峰(1982—),男,河南固始人,2012年于解放軍外國語學院計算語言學專業(yè)獲得博士學位,現為北京航空航天大學計算機學院博士后,主要研究領域為自然語言處理,大數據分析,語料庫語言學等。
HUANG Jinzhu was born in 1980. He is a Ph.D. candidate at PLA University of Foreign Languages. His research interests include natural language processing and knowledge base construction, etc.黃金柱(1980—),男,新疆鄯善人,解放軍外國語學院博士研究生,主要研究領域為自然語言處理,知識庫建設等。
LI Zhoujun was born in 1963. He received the Ph.D. degree in computer science and technology from National University of Defense Technology in 1999. Now he is a professor and Ph.D. supervisor at Beihang University, and the member of CCF, EATCS, IEEE and ACM. His research interests include natural language processing, information security and big dada analysis, etc.李舟軍(1963—),男,湖南湘鄉(xiāng)人,1999年于國防科技大學計算機科學與技術專業(yè)獲得博士學位,現為北京航空航天大學計算機學院教授、博士生導師,CCF高級會員、歐洲理論計算機科學學會(EATCS)會員、IEEE會員、ACM會員,主要研究領域為自然語言處理,信息安全,大數據分析等。
YANG Weiming was born in 1982. He received the M.S. degree in human geography from PLA Information Engineering University in 2006. His research interests include knowledge base construction and geospatial data mining, etc.楊偉銘(1982—),男,江西鷹潭人,2006年于解放軍信息工程大學獲得人文地理學碩士學位,主要研究領域為知識庫建設,地理信息數據挖掘等。
Automatic Summarization Method of News Texts Using Keywords Expansion?
LI Feng1,2+, HUANG Jinzhu3, LI Zhoujun1, YANG Weiming2
1. School of Computer Science and Engineering, Beihang University, Beijing 100191, China
2. Logistics Science Research Institute of PLA, Beijing 100166, China
3. Department of Language Engineering, PLAUniversity of Foreign Languages, Luoyang, Henan 471003, China
+ Corresponding author: E-mail: li_bopr@126.com
LI Feng, HUANG Jinzhu, LI Zhoujun, et al. Automatic summarization method of news texts using keywords expansion. Journal of Frontiers of Computer Science and Technology, 2016, 10(3): 372-380.
Abstract:This paper proposes an automatic summarization method of news texts using keywords expansion. This method extracts texts with similar topics from large-scale data for input text to form background data, and based on background data this method makes keywords expansion so that keywords can play more important role in guiding summary sentences and consequently improves the quality of news text summarization. The study and experiments show that the results obtained in Rouge-1 and Rouge-2 evaluations are better than those of methods based on keyword, TextRank and Manifold Ranking. This paper constructs a Chinese evaluation set which covers 100 news texts divided into 4 groups, and also develops keyword-based Chinese news text automatic summarization system and Chinese news text automatic evaluation system based on ROUGE theory. Through these systems, the theory put forward in the paper is realized and tested successfully.
doi:10.3778/j.issn.1673-9418.1509085
文獻標志碼:A
中圖分類號:TP391