羅森林, 白建敏, 潘麗敏, 韓磊, 孟強
(北京理工大學 信息與電子學院,北京 100081)
?
融合句義特征的多文檔自動摘要算法研究
羅森林, 白建敏, 潘麗敏, 韓磊, 孟強
(北京理工大學 信息與電子學院,北京 100081)
多文檔自動摘要研究是自然語言處理領域的關鍵問題之一,為使抽取的摘要更能體現(xiàn)多文檔主題,本文在子主題劃分的基礎上,提出了一種融合句義特征的句子優(yōu)化選擇方法. 該方法基于句義結構模型,提取句義結構中的話題、謂詞等特征,并融合統(tǒng)計特征構造特征向量計算句子權重,最后采用綜合加權選取法和最大邊緣相關相結合的方法抽取摘要. 選取不同主題的文本集進行實驗和評價,在摘要壓縮比為15%情況下,系統(tǒng)摘要平均準確率達到66.7%,平均召回率達到65.5%. 實驗結果表明句義特征的引入可以有效提升多文檔摘要的效果.
多文檔自動摘要;句義結構模型;句義特征;自然語言處理
多文檔自動摘要是自然語言處理領域的一個重要問題. 它的目的是從主題相同或相似的文檔集合中抽取重要信息生成信息豐富、語言簡潔并且符合壓縮比要求的摘要,從而提供一種快速瀏覽和獲取信息的手段[1]. 多文檔自動摘要技術經(jīng)過多年的發(fā)展出現(xiàn)了很多方法和技術,比較有代表性的有:美國密歇根大學的Radev等[2]提出的MEAD多文檔自動摘要系統(tǒng),抽取句子生成文摘;Erkan等[3]提出了一種LexPageRank算法,并將其成功應用到了Google PageRank中. 近年來,有些學者通過概率淺層語義分析(probabilistic latent semantic analysis,PLSA)及淺層狄利克雷分布(latent Dirichlet allocation,LDA)[4]來生成多文檔摘要,都取得了較好的效果.
中文多文檔自動摘要相比于英文而言起步較晚,比較有代表性的有:哈工大王曉龍等[5]提出了一種面向多文檔自動摘要任務的多文本框架(multiple document framework,MDF),該框架在生成摘要中獲得較好的結果. 山東大學馬軍等[6]提出了一種基于LDA的多文檔自動文摘方法,該方法在ROUGE的各個評測標準上均優(yōu)于SumBasic方法.
多文檔自動摘要過程可以分解為3個任務:主題識別、主題說明、摘要提取. 句子重要程度的衡量在摘要提取中起著十分關鍵的作用. 目前,句子重要程度的表述大多采用統(tǒng)計特征,導致所選摘要句與主題容易產(chǎn)生偏差. 針對特征向量的局限性本文提出了一種融合句義特征的文摘句抽取策略,通過構建句義結構模型,提取有效句義特征,進而根據(jù)綜合加權選取法和最大邊緣相關(maximal marginal relevance,MMR)[7]方法抽取摘要. 本文在多個文本集上進行實驗驗證了句義特征的有效性,并與兩個參照系統(tǒng)進行對比驗證了系統(tǒng)的優(yōu)良性能.
目前自然語言處理中對句子主要是從詞法和語法兩個層次上進行分析,但是無論是詞法理解還是語法理解都屬于形式上的理解,沒有深入到語義,不能反映句子所表達的真正含義.
句義結構模型是句義中的成分以及成分之間組合關系的形式化表達,不同于以往對句義的理解方法,目的是幫助計算機從深層的語義角度去理解漢語句子. 通過該模型將抽象的句義形式化表達為成分之間的數(shù)理結構. 句義結構模型包含的要素包括:句義的類型、句義中的話題和述題、構成句義的成分、成分之間的組合關系等[8].
句義特征是能夠表述句子語義的特征,句義結構模型中的句義特征包括句義成分以及成分之間的關系. 其中,話題和述題是句義說明的對象以及對該對象的說明,是對句義結構的第一層劃分;基本格與謂詞結合,體現(xiàn)了謂詞在搭配上的要求,并以謂詞為中心組成了句義的框架;一般格和謂詞或者其他的項結合,但不與謂詞構成句義的框架,而只是說明、描述這框架. 本文利用上述句義特征構建文本句子的特征向量.
本文提出的融合句義特征的多文檔自動摘要算法是在子主題劃分的基礎上提取相關的統(tǒng)計特征,同時進行句義分析,提取相應的句義特征,最后根據(jù)綜合加權選取法和MMR方法相結合的策略選取文摘句[9]. 算法原理框架如圖 1所示.
系統(tǒng)主要包括:預處理、子主題劃分、特征提取、文摘生成4個模塊. 各個模塊的具體算法和過程如下.
2.1 預處理
生成摘要的第一步是對多文檔集合進行預處理,預處理模塊的輸入是多文檔集合,首先進行段落切分,以段落為子主題劃分模塊的聚類單元,之后對文本進行分詞和詞性標注,并去除停用詞.
2.2 子主題劃分
多文檔集合中子主題是對中心主題不同側面的描述. 子主題的引入可以提高多文檔摘要的信息覆蓋率,去除與中心主題不相關的信息. 子主題劃分就是把內(nèi)容相似的文本單元聚合在一起. 本文采用層次聚類和K-means聚類相結合的方法. 首先通過層次聚類進行大體的子主題劃分,確定文本的聚類數(shù)目K和聚類集合C1,C2,…,Ck. 聚類后得到子主題,通過特征線性加權和組合詞生成與過濾的方法提取關鍵詞得到子主題的主題詞[10].
本文采用凝聚方式的層次聚類方法,為了避免最終聚為一類,加入一個閾值s作為停止條件,當類間距離大于閾值時就停止合并,閾值的選擇為
(1)
式中:a為常數(shù),經(jīng)實驗分析,a為0.8時聚類數(shù)目較為合理;N為文檔中所包含的所有段落數(shù);段落Pi=(Wi1,Wi2,…,Win),Pj=(Wj1,Wj2,…,Wjn),W為段落中的有效詞;sim(Pi,Pj)為文檔中兩個段落之間的相似度,用向量間的余弦值表示相似度.
2.3 特征提取
句子是人理解語言含義的基本單元,也是摘要抽取的基本單元. 特征提取模塊分別對句子的統(tǒng)計特征和句義特征進行提取,最后依據(jù)特征向量計算句子權重.
2.3.1 統(tǒng)計特征提取
本文提取句子的統(tǒng)計特征如表1所示.
表1 句子統(tǒng)計特征
2.3.2 句義特征提取
針對統(tǒng)計特征的局限性,本文引入句義特征增強特征向量的表述能力,句義特征的提取采用課題組的研究成果[11]. 經(jīng)分析,從句義結構模型中得到的句義特征如表2所示.
表2 句子句義特征
實驗選取同一主題多文檔集合(全國眾志成城抗凍災)作為語料,實驗設置摘要壓縮比為15%. 為了衡量句義特征的有效性,假設每個特征同等重要,然后依次去除句義特征得到相應的評價結果. 特征篩選實驗采用準確率、召回率、F值對摘要進行評價,計算方法如下:
式中:K為系統(tǒng)生成的摘要句包含在標準摘要中的數(shù)目;N為系統(tǒng)生成的摘要所包含的句子數(shù)目;M為標準摘要所包含的句子數(shù)目.
實驗中,首先考慮所有特征,然后按照特征編號從高到低的順序依次去除句義特征,實驗結果如圖2所示.
由圖2可知,在不斷去除句義特征后,摘要的效果越來越差,在去除F_COMMARG特征和F_COMMENT特征后,系統(tǒng)性能基本不變;在去除F_PREDICATE特征后,摘要準確率下降了5.3%,召回率下降5.6%;去除F_TOPIC特征后,摘要準確率下降了近9%,召回率下降8.8%. 由此可得,去除F_COMMARG特征及F_COMMENT特征在現(xiàn)有的數(shù)據(jù)源下并沒有影響,因此可以去除這兩個特征,最終保留F_TOPIC特征(用FTC表示)及F_PREDICATE特征(用FPE表示).
2.3.3 句子權值計算
由于不同特征的重要程度是不一樣的,所以特征提取后要根據(jù)每個特征的重要程度獲取特征向量的權向量,本文通過層次分析法獲取權向量[12]. 首先建立層次分析模型,然后通過對語言學的分析與實驗,構造成對比較矩陣A,本文中構造的成對比較矩陣如下所示
經(jīng)過分析Α具有滿意的一致性. 當矩陣為一致性矩陣時,矩陣的主特征向量就是特征的權向量. 以此求得權向量為:
U=
[0.061 0.202 0.106 0.271 0.180 0.180],
設為U=[u1u2u3u4u5u6],各個特征的相對重要性由權向量U的各分量所確定.
本文假定各個特征相互獨立,將句子的統(tǒng)計特征和句義特征構成特征向量
F=[FAFWFTFKFTCFPE],
各個特征的加權系數(shù)構成權向量U,句子權值如式(2)所示
(2)
式中:Wi為第i個句子的權值;Fi為第i個句子的特征向量.
2.4 文摘生成
文摘生成模塊首先根據(jù)句子的權值以及子主題內(nèi)的句子數(shù)目等因素對子主題進行排序,確定摘要抽取的順序[13],之后采取一定策略抽取文摘句,最后進行后處理生成可讀性較高的摘要. 本文采用綜合加權選取法和MMR方法相結合的方法進行句子抽取. 具體步驟如下:
① 文摘句抽取前對句子進行過濾,將祈使句、問句等不適合作為文摘句的句子去掉,將長度系數(shù)CL>0.8及<0.2的句子去掉. 句子長度系數(shù)定義如下所示
(3)
式中:L為句子的長度;Lm為最長句子的長度;
② 根據(jù)有效子主題的權值高低依次選取子主題內(nèi)權值最高的句子;
③ 檢查候選文摘句與已選文摘句話題和謂詞是否一致,如果一致,候選文摘句換為該子主題中的下一個候選句子,如果不相同則轉步驟④;
④ 檢查是否滿足文摘壓縮比要求,如果沒有達到壓縮比要求轉步驟②,如果滿足壓縮比要求轉步驟⑤;
⑤ 停止選取句子,輸出初始文摘進行后處理.
得到初始文摘后首先進行句子排序,然后進行指代消解和平滑潤色,本文根據(jù)文獻[14]所述方法進行了文摘句的后處理,進一步提高文摘的可讀性.
3.1 實驗數(shù)據(jù)源
實驗數(shù)據(jù)來自北京理工大學信息系統(tǒng)及安全對抗實驗中心多文檔摘要語料庫(Beijing forest studio-multi-document summarization,BFS-MDS). 該語料庫主要來自2009年熱點新聞事件的網(wǎng)絡新聞報道,包括90個主題,每個主題包含20~50篇不等數(shù)量的新聞語料,每篇新聞語料包含20~80個句子,同時每個主題包含壓縮比為5%,10%,15%的3篇標準摘要.
本文從語料庫中隨機選取6個話題進行實驗.
3.2 評價方法
3.3 結果及分析
為了驗證本文提出的多文檔自動摘要系統(tǒng)的有效性,依據(jù)當前多文檔自動摘要研究方法,建立了兩個對照系統(tǒng)與本文方法進行對比實驗.
第1個對照系統(tǒng)是基于事件抽取的網(wǎng)絡新聞多文檔自動摘要系統(tǒng)(multi-document summarization based on event extraction,MSBEE)[15],該系統(tǒng)引入事件抽取技術,通過主旨事件抽取及后續(xù)處理生成摘要. 本文系統(tǒng)與MSBEE系統(tǒng)對比結果如表3所示.
表3 本文系統(tǒng)與MSBEE系統(tǒng)對比結果
第2個對照系統(tǒng)是基于統(tǒng)計特征的多文檔自動摘要系統(tǒng)(multi-document summarization based on statistical features,MSBSF)[16],該系統(tǒng)通過聚類進行子主題劃分,然后對子主題內(nèi)句子進行加權求和,根據(jù)句子的權值大小進行文摘句抽取. 本文系統(tǒng)與MSBSF系統(tǒng)對比結果如表4所示.
表4 本文系統(tǒng)與MSBSF系統(tǒng)對比結果
由本文系統(tǒng)和MSBSF系統(tǒng)在不同壓縮比下的效果可知,在一定范圍內(nèi)壓縮比越大系統(tǒng)的性能越好,原因在于人工抽取標準摘要的隨機性比較大,而壓縮比提高、數(shù)據(jù)量變大在一定程度上克服了這種隨機性,使得最終得到的摘要更加合理而使評價效果有所提高.
目前,信息社會對多文檔自動摘要技術有著迫切的需求,它能對文本形式自然語言進行深層次知識挖掘,通過閱讀其生成的摘要可以在短時間內(nèi)了解事件的發(fā)生、發(fā)展和結束的全過程,同時有效地解決了數(shù)據(jù)的冗余問題,具有重要的現(xiàn)實意義.
針對當前多文檔自動摘要方法中句子特征選取的局限性,提出一種融合句義特征的多文檔自動摘要方法,該方法在傳統(tǒng)句子統(tǒng)計特征的基礎上加入句義特征,增加了句子的分析深度,使特征向量更能表達句子的含義,使抽取的文摘句更能體現(xiàn)主題含義,實驗結果表明本文提出的文摘方法比MSBEE系統(tǒng)和MSBSF系統(tǒng)的綜合性能更加優(yōu)良,在平衡準確率和召回率方面更加優(yōu)秀. 綜上,句義結構模型在多文檔自動摘要中的應用是有效的,為多文檔文摘提出了一種新的思路和方向. 下一步研究的重點是構建基于句義結構模型的篇章語義表達,通過篇章結構得到文摘的語義結構,從而改善文摘的邏輯性和可讀性,從而生成更高質(zhì)量的文本摘要.
[1] Wang D, Li T. Weighted consensus multi-document summarization[J]. Information Processing & Management, 2012,48(3):513-523.
[3] Erkan G, Radev D R. Lexpagerank: prestige in multi-document text summarization[C]∥Proceedings of EMNLP.[S.l.]: EMNLP, 2004:365-371.
[4] Arora R, Ravindran B. Latent dirichlet allocation based multi-document summarization[C]∥Proceedings of the Second Workshop on Analytics for Noisy Unstructured Text Data. [S.l.]: ACM, 2008:91-97.
[5] 徐永東,徐志明,王曉龍.基于信息融合的多文檔自動文摘技術[J].計算機學報,2007,30(11):2048-2054.
Xu Yongdong, Xu Zhiming, Wang Xiaolong. Multi-document automatic summarization technique based on information fusion[J]. Chinese Journal of Computers, 2007,30(11):2048-2054. (in Chinese)
[6] 楊瀟,馬軍,楊同峰,等.主題模型LDA的多文檔自動文摘[J].智能系統(tǒng)學報,2010,5(2):169-176.
Yang Xiao, Ma Jun, Yang Tongfeng, et al. Automatic multi-document summarization based on the latent Dirichlet topic allocation model[J]. Caai Transactions on Intelligent Systems, 2010,5(2):169-176. (in Chinese)
[7] Carbonell J, Goldstein J. The use of MMR, diversity-based reranking for reordering documents and producing summaries[C]∥Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. [S.l.]: ACM, 1998:335-336.
[8] 馮揚.漢語句義模型構建及若干關鍵技術研究[D].北京:北京理工大學,2010.
Feng Yang. Research on Chinese sentential semantic mode and some key problems[D]. Beijing: Beijing Institute of Technology, 2010. (in Chinese)
[9] 羅森林,劉盈盈,馮揚,等.BFS-CTC漢語句義結構標注語料庫構建方法[J].北京理工大學學報,2012,32(3):311-315.
Luo Senlin, Liu Yingying, Feng Yang, et al. Method of building BFS-CTC a Chinese tagged corpus of sentential semantic structure[J]. Journal of Beijing Institute of Technology, 2012,32(3):311-315. (in Chinese)
[10] 蘇凱.中文文本關鍵詞提取與自動摘要技術研究[D].北京:北京理工大學,2008.
Su Kai. Chinese text keyword extraction and automatic summarization technology[D]. Beijing: Beijing Institute of Technology, 2008. (in Chinese)
[11] 羅森林,韓磊,潘麗敏,等.漢語句義結構模型及其驗證[J].北京理工大學學報,2013,33(2):166-171.
Luo Senlin, Han Lei, Pan Limin, et al. Chinese sentential semantic mode and verification[J]. Beijing Institute of Technology, 2013,33(2):166-171. (in Chinese)
[12] Saaty T L. Decision making with the analytic hierarchy process[J]. International Journal of Services Sciences, 2008,1(1):83-98.
[13] He R, Qin B, Liu T. A novel approach to update summarization using evolutionary manifold-ranking and spectral clustering[J]. Expert Systems with Applications, 2012,39(3):2375-2384.
[14] Heu J U, Jeong J W, Qasim I, et al. Multi-document summarization exploiting semantic analysis based on tag cluster[M]. Advances in Multimedia Modeling. Heidelberg Berlin:Springer, 2013:479-489.
[15] 韓永峰,許旭陽,李弼程,等.基于事件抽取的網(wǎng)絡新聞多文檔自動摘要[J].中文信息學報,2012(1):58-66.
Han Yongfeng, Xu Xuyang, LI Bicheng, et al. Web news multi-document summarization based on event extraction[J]. Journal of Chinese Information Processing, 2012 (1):58-66. (in Chinese)
[16] 熊穎.中文多文檔摘要關鍵技術研究[D].北京:北京郵電大學,2011.
Xiong Ying. Research on key technologies of Chinese multi-document summarization[D]. Beijing: Beijing University of Posts and Telecommunications, 2011. (in Chinese)
(責任編輯:李兵)
Research on Multi-Document Summarization Merging the Sentential Semantic Features
LUO Shen-lin, BAI Jian-min, PAN Li-min, HAN Lei, MENG Qiang
(School of Information and Electronics, Beijing Institute of Technology, Beijing 100081, China)
Multi-document summarization (MDS) is one of the key issues in the field of natural language processing. In order to extract compendious sentences to reflect more accurate theme of the multi-document, a new method was proposed to retrieve terse sentences. At first, some sentential semantic features (SSF), for example topic and predicate, were extracted based on a sentential semantic model (SSM). Then the sentence weight was calculated by building feature vector merging statistical features and SSF. Finally, sentences were extracted according to the feature weighting and maximal marginal relevance (MMR). A set of experiment show that the new method is effective, the average precision rate of summary can reach 66.7%, and the average recall rate can reach 65.5% when the compression ratio of summary is 15%. The results of experiments show that the SSF are effective on upgrading the affection of MDS.
multi-document summarization; sentential semantic model; sentential semantic feature; natural language processing
2013-04-11
國家“二四二”資助項目(2005C48);北京理工大學科技創(chuàng)新計劃重大項目培育專項資助項目(2011CX01015)
羅森林(1968—),男,教授,博士生導師,E-mail:luosenlin@bit.edu.cn.
TP 391; TP 18
A
1001-0645(2016)10-1059-06
10.15918/j.tbit1001-0645.2016.10.014