王紅玲,周國棟,朱巧明
(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)
多文檔自動文摘是指從一組文檔集合中提取出重要信息組成代表該文檔集合的摘要,該文檔摘要可以幫助人們快速、高效地獲取信息。通常多文檔自動文摘可分成三步: 文本分析,文本內(nèi)容選擇和文摘生成。和單文檔自動文摘相比,多文檔自動文摘需要考慮文檔之間的相關性,以及文檔信息之間的冗余性。因此如何控制信息冗余和如何選擇文摘句來代表文檔內(nèi)容是多文檔自動文摘的關鍵所在。本文在充分考慮文摘特性的基礎上,提出了一個冗余度控制模型,該模型主要在文摘生成階段通過綜合考慮文本單元之間的相似度來選擇句子作為文摘。在相似度計算上,本文通過計算文本單元的主題概率分布之間的相似性來獲得。
文章第二部分簡述了中文多文檔自動文摘的相關研究;第三部分介紹了基于冗余度控制模型;第四部分總體介紹了面向冗余控制的中文多文檔自動文摘系統(tǒng);第五部分對實驗結(jié)果進行了分析和比較;最后第六部分對本文進行了總結(jié),并對后期工作進行了展望。
中文多文檔自動文摘相比于英文而言起步較晚,從技術上看,采用的主要技術手段大致相同。同時在這些技術使用過程中,需要利用的一些中文的資源和測試平臺還不夠成熟,例如,中文多文檔文摘缺乏統(tǒng)一的標注語料和評測方法,一些中文信息處理技術還不夠成熟,在某種程度上制約了中文多文檔自動文摘的發(fā)展。近階段的相關研究包括基于句子抽取的策略[1],基于規(guī)則和統(tǒng)計的策略[2],基于圖的策略[3-4]和基于篇章的文摘策略[5]等。
其中宋銳等[4]通過抽取中文多文檔集合中的主—述—賓三元結(jié)構(gòu)構(gòu)建文檔語義圖,再對語義圖中的節(jié)點利用編輯距離進行語義聚類,并應用排序算法進行權(quán)重計算,選取包含權(quán)重較高的節(jié)點和鏈接關系的三元組生成多文檔摘要。徐永東等[5]受到 Radev[6]交叉文本結(jié)構(gòu)理論CST的啟發(fā),提出了一個用于多文本結(jié)構(gòu)分析式文摘的多文本結(jié)構(gòu)MDF,并在該結(jié)構(gòu)的基礎上進行候選文摘句的抽取、文摘句排序及文摘生成等一系列工作。
常用的冗余識別方法通常有兩種: 聚類法和排序法。聚類法通過測量所有句子對之間的相似性,用聚類的方法識別公共信息的主題,并從每個類別中抽取中心句子作為文檔摘要。排序法相比于聚類法更加常用,其基本方法是根據(jù)某種打分規(guī)則,對文檔中的所有句子打分并排序,選擇高分值的句子作為文檔摘要,典型的工作如最大邊緣相關法MMR(Goldstein等1999)和文檔間信息包含法CSIS。在MMR方法中,系統(tǒng)首先測量候選文摘與已選文摘之間的相似度,僅當候選段含有足夠的新信息時才將其入選。該方法主要根據(jù)句子在文檔中的相關性和已選中句子之間的冗余性的權(quán)值組合來選擇合適的句子,相關性和冗余性都使用余弦相似度來計算。而CSIS方法[7]則通過一個句子是否被包含在已在文摘中的另一個句子中來決定是否選擇該句作為文摘句,該方法中的句子包含關系需要人工標注。Haghighi 和 Vanderwende[8]則通過判斷文檔集合與候選文摘之間的相關度來判斷冗余信息。
圖1給出了冗余度控制模型,該模型既可以面向通用型文摘(Generic Summarization)也可以面向基于查詢的文摘(Query-based Summarization)。當面向基于查詢的文摘時,需要考慮圖中給出的用戶查詢部分與當前句子和擴充文摘之間的相似度,其中的用戶查詢可使用信息檢索術中的查詢擴展技術來擴充查詢內(nèi)容。本文只考慮通用型文摘,故忽略用戶查詢與句子和擴充文摘之間的相似度。
在此模型中,通過使用文本單元之間的相似性來反映文摘的各類特性,包括代表性、信息性和多樣性等。其中候選文摘與文檔集合之間的相似性反映文摘的代表性,句子與文檔集合之間的相似性反映文摘的信息性,句子與文摘之間的相似性反映文摘的多樣性。
本文中該模型的評價函數(shù)定義為:
score(si)=∑λi*fii=1,2,3
(1)
其中的fi為衡量各文本單元的相似度值,λi為權(quán)值,即f1為擴充文摘與文檔集合之間的相似度;f2為當前句子S與文檔集合之間的相似度;f3為當前句子S與當前文摘之間的相似度。句子通過該評價函數(shù)計算句子的得分,得出的分值越高說明與原多文檔集合相似度越高、與當前摘要相似度越小,可以有效地減少冗余。
傳統(tǒng)的根據(jù)特征的句子打分方法實際上只考慮了f2值,即只反映信息性,在此模型中只需要設置λ1=0,λ3=0;而在Haghighi和Vanderwende (2009) 則使用了基于代表性的動態(tài)模型,即λ2=0,λ3=0;當λ1=0,λ2=0 時,本模型考慮多樣性。而MMR模型則同時考慮了信息性和多樣性,此時λ1=0。因此,本模型綜合考慮了文檔文摘所應具有的三種特性。
圖1 冗余度控制模型
在圖1所示的冗余度控制模型中,我們使用各文本單元之間的相似度來評價句子的得分,并由此來判斷該句子的取舍,因此文本單元相似度的計算是該模型的一個重要組成部分。在此文本單元包括句子、文摘、文檔和文檔集合。本文通過計算各文本單元在文檔主題上的概率分布之間的相似性來計算他們之間的相似性。
給定任意兩個文本單元,a和b,其相似度值為:
TSim(a,b)=-(DKL(Pa‖Pb)+DKL(Pb‖Pa))
(2)
其中Pa和Pb是文本單元a和b在主題上的概率分布,DKL(Pa‖Pb)是兩個概率分布Pa和Pb之間的KL散度,即
(3)
由于KL散度具有不對稱性,我們同時包含DKL(Pa‖Pb)和DKL(Pb‖Pa)來保證相似度的對稱性。
對于給定文本單元a,其文檔主題的概率分布Pa可以使用主題模型LDA的輸出: 主題z在文檔d上的分布p(z|d)和詞匯w在主題z上的分布p(w|z)來計算得到,具體的計算方法參見Wang和Zhou[9]。
傳統(tǒng)的文摘生成方法是根據(jù)句子的分值,從高到低抽取句子組成文摘,這是一種靜態(tài)的文摘生成方式。而采用冗余度控制模型后,需要根據(jù)動態(tài)計算當前句子與其他文本單元之間的相似度得分,逐漸擴充摘要。換句話說,判斷一句話是否要作為文摘句加入到當前文摘中,不僅要計算句子與當前文摘的相似度,還要計算擴充文摘與給定多文檔之間的相似度,這個過程是一個動態(tài)過程。
因此,使用冗余度模型產(chǎn)生文摘的具體過程如下:
1) 運行LDA模型,得到p(z|d)和p(w|z),計算句子得分并排序;
2) 挑選得分最高的句子作為當前文摘;
3) 對集合中的每個句子,將該句子與當前文摘組合形成擴充文摘,按照相似度計算方法,計算各文本單元之間的相似度;
4) 選中使評價函數(shù)得分最高的句子加入到當前文摘中,形成新的當前文摘;
5) 重復第3和第4步,直到文摘達到指定長度。
由于目前中文自動文摘沒有一個公認的標注語料,為了便于性能的比較,我們選用徐永東等[5]描述的多文檔數(shù)據(jù)作為實驗語料。這些數(shù)據(jù)來自于網(wǎng)絡上的新聞報道,覆蓋的主題有運動、經(jīng)濟、事故等等,整個數(shù)據(jù)被分成19個文檔集合,每個文檔集合含有5~10篇文檔,并且同樣的文檔集合有同一個中心的主題。
在確定本文冗余度模型評價函數(shù)中的權(quán)值λi時,主要根據(jù)經(jīng)驗以及在英文語料上的實驗結(jié)果來設置,在本文實驗中分別設置為:λ1=0.4,λ2=1.5,λ3=-0.1。當然確定權(quán)值的理想方法是通過參數(shù)估算方法來設置,這將在我們今后的實驗中進一步改進。
本文評價方法采用對每個主題采用模糊標注的方法,標注過程中,除了在源文檔集合中標注出標準文摘句,還標注出在源文檔中可替換標準文摘句、且不能與標準文摘句在文摘中同現(xiàn)的句子,我們稱之為候選文摘句。每個候選文摘句根據(jù)可替換程度賦予一個取值在(0,1]之間的權(quán)值。這樣得到的評測語料庫就可以采用準確率、冗余度和總體質(zhì)量三項指標來評估文摘系統(tǒng)質(zhì)量,以解決傳統(tǒng)多文檔自動文摘評測出現(xiàn)的無法顧全文本集合中存在多個可替換文摘句的問題。在此基礎上,采用準確率、冗余度和綜合質(zhì)量等幾方面指標來評估待測系統(tǒng):
其中,K是待評測文摘的句子總數(shù)。k1是標準文摘的句子在待評測文摘中出現(xiàn)的句子總數(shù),(ω1,ω2,…,ωk)是每個句子的權(quán)值,該權(quán)值由上述手工標注方法得到;φ(si,sj)是一個二元判別函數(shù),當si,sj為同類文摘句時,φ(si,sj)=1;否則為0。
在預處理階段,本文使用了ICTCLAS 2009系統(tǒng)*http://ictclas.org進行中文分詞處理,然后根據(jù)停用詞表去除停用詞,另外根據(jù)文檔特征去掉了對文摘作用不大的介詞、虛詞、數(shù)詞等詞語,提高系統(tǒng)準確率。
? 冗余度控制模型實驗
為評價冗余度模型的性能,我們進行了對比實驗,來驗證冗余度控制模型的有效性。表1給出了我們系統(tǒng)分別在5句、10句、20句文摘情況下的系統(tǒng)性能。表中的靜態(tài)方法表示只根據(jù)句子得分來抽取句子形成最終文摘,不使用冗余度控制模型的方法。該方法中句子得分使用了句子與文檔集合在主題分布上的相似度值。而動態(tài)方法是指使用冗余度控制模型抽取文摘的方法。從表1的結(jié)果可看出,使用冗余度控制模型后,系統(tǒng)的準確率和冗余度總是優(yōu)于靜態(tài)方法(不使用冗余度控制模型),特別是冗余度有明顯的降低,這說明了冗余度控制模型的有效性。
表2給出了徐永東等[5]一文中給出的在相同評價體系下、同一語料庫上的上限系統(tǒng)性能和其使用的MDF框架的性能,其中上限系統(tǒng)中的文摘是指根據(jù)人工標注信息抽取的摘要,而MDF中的所有信息是自動生成的。比較表1和表2的結(jié)果,可看出除5句文摘的冗余度值,動態(tài)方法的性能在系統(tǒng)的準確率和冗余度方法都明顯好于MDF的性能,但相比于上限系統(tǒng),我們系統(tǒng)的準確率還有很大的差距,不過在冗余度方面,兩者的性能已經(jīng)比較接近,這進一步說明了冗余度控制模型的有效性。需要說明的是,從理論上講 5句文摘的冗余度不可能為0。
表1 系統(tǒng)性能
表2 上限系統(tǒng)性能和MDF的性能
? 主題數(shù)目實驗
由于LDA訓練時的主題數(shù)目會影響系統(tǒng)性能,我們對不同的主題數(shù)目進行實驗。圖2展現(xiàn)了中文語料在不同主題數(shù)目下文摘的準確率,圖中表明當主題數(shù)目k設為7的時候,系統(tǒng)能獲得最好的性能。這與我們的最初判斷是一致的,即盡管每個文檔集合都有一個中心主題,但其中的每個文檔都有自己的主題,也就是每個文檔至少有一個主題?;诖擞^察,我們發(fā)現(xiàn)每個文檔集合平均有7個文檔,所以,當k=7時,我們得到最好的結(jié)果,隨著主題個數(shù)的增長,數(shù)據(jù)稀疏性增大,性能降低。圖中不同的線型代表不同文摘長度的準確率,這同樣表明不同長度的摘要有相似的準確度曲線。本文其余實驗中,主題數(shù)目均設置為K=7,迭代次數(shù)為2 000次。
圖2 主題數(shù)目對準確率的影響
本文針對中文多文檔自動文摘中的信息冗余問題,提出了一個冗余度控制模型,該模型從考慮文摘的特性出發(fā),綜合考慮各文本單元之間的相似度,包括句子與文檔集合之間的相似度,句子與文摘之間的相似度和文檔集合與文摘之間的相似度。本文使用各文本單元在文檔主題概率分布上的KL散度值來表示相似度。實驗結(jié)果表明,應用冗余度控制模型后能有效減少自動文摘的冗余度。
抽取關鍵句子及計算文本單元之間的相似度有較多的方法,因此在下一步工作中,我們將繼續(xù)探索有效的句子打分方法和相似度計算方法,以進一步提高系統(tǒng)性能。
[1] 劉德喜,何炎祥,姬東鴻,等.一種基于演化算法進行句子抽取的多文檔自動摘要系統(tǒng)SBGA[J].中文信息學報, 2006, 20(6):14-20.
[2] 傅間蓮,陳群秀. 基于規(guī)則和統(tǒng)計的中文自動文摘系統(tǒng)[J].中文信息學報, 2006,20(6):10-16.
[3] 馬慧芳,祁云平,楊小東. 一種基于文本關系圖的多文檔自動摘要技術[J].情報學報, 2007,23(3):67-69.
[4] 宋銳,林鴻飛. 基于文檔語義圖的中文多文檔摘要生成集中[J].中文信息學報, 2009,23(3):110-115.
[5] 徐永東, 徐志明, 王曉龍. 基于信息融合的多文檔自動文摘技術[J]. 計算機學報. 2007,30(11): 2048-2054.
[6] Radev, DR., H. Jing, M. Budzikowska. Centroid-based summarization of multiple documents: sentence extraction, utility-based evaluation, and user studies[C]. ANLP/ NAACL 2000: 21-29.
[7] Radev, D., Jing, H., Sty s, M., et al. Centroid-based summarization of multiple documents[J]. Information Processing and Management 2004, 40:919-938.
[8] Haghighi A., Vanderwende L. Exploring Content Models for Multi-Document Summarization[C]//NAACL’2009:362-370.
[9] Hongling Wang, Guodong Zhou. Topic-driven Multi-document Summarization[C]//IALP’2010.