亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種面向查詢的多文檔摘要方法

        2010-06-05 06:31:56蔡東風
        中文信息學報 2010年6期

        葉 娜,蔡東風

        (沈陽航空航天大學 知識工程研究中心, 遼寧 沈陽 110136)

        1 引言

        多文檔自動摘要(Multi-Document Summarization)的任務是識別多篇同主題文檔中的有用信息,壓縮其中的冗余信息,生成一篇簡短、流暢的摘要。該技術可以幫助用戶快速形成對特定主題的全面了解,提高獲取信息的效率。

        多文檔摘要可分為一般性摘要(General Summarization)和面向查詢的摘要(Query-Focused Summarization)。與一般性摘要不同,面向查詢的多文檔摘要允許用戶提交當前主題下自己最為關心的問題,并根據(jù)問題的要求生成摘要,為用戶帶來更大的便利。

        在面向查詢的多文檔摘要領域,研究人員已經做了許多工作。Goldstein[1]將文檔切分為基本片段,過濾掉與查詢相關度低的片段,利用MMR(Maximum Marginal Relevance)技術消除信息冗余,生成摘要。Pingali[2]設計了基于句子與查詢的相關度和無關度兩方面因素的打分函數(shù)進行內容選擇。NeATS系統(tǒng)[3]利用WordNet[4]進行查詢擴展,并根據(jù)文檔句里的基本要素[5](Basic Elements)數(shù)目對句子排序,作為選擇摘要內容的依據(jù),并使用簡化的MMR技術來消除冗余。GISTexter系統(tǒng)[6]用句法分析器對查詢進行分解,將分解后的查詢送入文檔集檢索,識別出相關的句子,并對句子進行聚類,從每個簇選擇文本以消除冗余。Filippova[7]利用相關網(wǎng)頁資源對查詢進行擴展,過濾掉與查詢匹配度低的句子,并依據(jù)新穎度(Novelty)對余下的句子進行排序。

        從上述研究現(xiàn)狀來看,目前面向查詢的多文檔摘要技術存在兩個問題。第一,為了保證所生成的摘要與查詢密切相關,現(xiàn)有方法通常選取與查詢之間相似度較高的句子加入摘要。但是這種策略容易造成摘要句之間的內容重復,影響摘要的全面性。雖然一些研究人員采用了冗余消除技術[1,3,6]來提高摘要的覆蓋率,但仍然無法很好地解決這個問題。實際上,與查詢的相關程度只是影響內容選擇的一個因素,除此之外,還應該從整個文檔集的角度出發(fā),盡量全面地選擇信息。第二,在計算文檔句與查詢的相關度時,僅使用原始查詢難以準確地描述用戶的隱含意圖,需進行查詢擴展。而現(xiàn)有方法多依賴語義詞典[3,6]和大規(guī)模語料庫[7]等外部知識和資源,來識別詞語之間的深層語義關系,在一定程度上受限于具體領域。

        針對以上問題,本文提出一種基于主題分析的面向查詢的多文檔摘要方法。其基本思想是,同一主題下的文檔集包含多個子主題,分別論述主題的不同側面。子主題信息將為摘要提供有價值的線索。文獻[8-10]曾提出基于子主題的多文檔摘要方法,但這些算法適用于一般性摘要任務,而本文的研究重點是面向查詢的摘要。

        本文利用主題分析技術,識別出子主題,并綜合考慮子主題與查詢的相關度以及子主題在當前主題下的重要度兩方面因素,對子主題進行打分排序,從排序靠前的子主題中選取句子形成摘要,使得摘要在符合查詢要求的前提下,覆蓋更多的子主題,更全面地反映文檔集的主要內容。另外,本文認為,詞語在不同子主題下的共現(xiàn)越頻繁,其語義相關性越強。通過選取與查詢詞的子主題分布最為相似的詞語,可以在不依賴外部語義資源和知識的情況下,對查詢進行擴展。在DUC2006評測語料上的實驗結果表明,與Baseline系統(tǒng)相比,本系統(tǒng)取得了更高的ROUGE評價值,基于子主題的查詢擴展方法則進一步提高了摘要的質量。

        2 面向查詢的多文檔摘要方法

        2.1 總體流程

        圖1為本文提出的SEG_SUM摘要方法的系統(tǒng)流程圖。可以看出,系統(tǒng)主要分為主題分析、查詢擴展、子主題篩選排序和摘要生成等階段。

        圖1 SEG_SUM摘要系統(tǒng)流程圖

        2.2 主題分析

        本文先對文檔進行了預處理,包括去除html標記、分句、禁用詞過濾和詞根還原等。為了識別當前主題下的子主題,對目標文檔集進行了主題分析,包括主題分割和語義段落聚類兩個步驟。

        1) 主題分割

        主題分割是一項較為成熟的技術,其任務是自動識別出一篇文本內部不同子主題的邊界,并將其線性分割開來,形成多個語義段落,其中相鄰的語義段落論述不同的子主題。目前方法[11-13]主要是利用一些語言學線索,如新詞出現(xiàn)、重現(xiàn)特性、命名實體和代詞使用、線索短語等來判斷文本的主題連貫性,從而識別子主題邊界。本文使用C99算法[12]進行主題分割。該算法不需外部資源,僅利用文檔內部的詞匯重現(xiàn)信息,分割效果較好,并且可以自動確定語義段落數(shù)目。

        2) 語義段落聚類

        對文檔集內每篇文檔進行主題分割后,需要對全部語義段落進行聚類,得到子主題集合。本文采用自底向上的聚類方法,其基本過程如下:

        設語義段落集合Ω= {S1,S2, …,Sn}

        STEP1:計算n個語義段落兩兩之間的相似度Sim(Si,Sj),記為初始相似度矩陣。

        STEP2:初始構造n個簇,每個語義段落自成一簇。

        STEP3:尋找相似度矩陣中的最小元素,合并相似度最小的兩簇形成一個新語義段落簇。

        STEP4:計算新簇與當前各簇的相似度,更新相似度矩陣。若矩陣中的最大值高于閾值threshold,則跳至步驟3,否則跳至步驟5。

        STEP5:輸出聚類結果,即子主題集合Φ={T1,T2, …,TN}。

        在聚類過程中,涉及到兩個相似度計算過程,一是語義段落之間的相似度,二是語義段落簇之間的相似度。語義段落之間的相似度通過向量余弦來計算。語義段落簇之間的相似度計算方法是,將兩個簇內語義段落之間的最小相似度作為兩個簇的相似度。

        假設兩個語義段落詞頻向量分別為x=(x1,x2,…,xn) 和y=(y1,y2,…,yn),則其相似度為:

        (1)

        假設兩個語義段落簇分別為Ti={Si1,Si2, …,Sin} 和Tj={Sj1,Sj2, …,Sjn},則其相似度為:

        (2)

        2.3 查詢擴展

        首先識別出原始查詢中的關鍵詞,將查詢表示為關鍵詞集合Q={w1,w2, …,wt}。

        為了進行查詢擴展,需要找到與查詢關鍵詞語義最為相關的詞語。本文認為,詞語的主題相關性可以反映其語義相關性。如果兩個詞wi和wj同時出現(xiàn)于子主題T內,那么這兩個詞具有一定的主題相關性,也就是可以反映同一個子主題的內容,說明它們在一定程度上語義相關。兩個詞共現(xiàn)的子主題越多,即在子主題之間的分布越相似,表示它們的語義相關性越強。

        本文將詞語表示為子主題向量w=(t1,t2, …,tN)。其中如果詞w在子主題Ti中出現(xiàn)過,那么ti取值為1,否則取值為0。通過向量余弦來計算兩個詞之間的主題相關度。

        假設詞x和詞y的子主題向量分別為x=(x1,x2,…,xN) 和y=(y1,y2,…,yN),則它們之間的主題相關度為:

        (3)

        對于每個查詢關鍵詞wi,選取文檔集里與之主題相關度最大的詞來進行擴展,形成擴展詞集合Q′,則擴展后的查詢Qs=Q∪Q′。

        2.4 子主題篩選排序

        面向查詢的多文檔摘要系統(tǒng)中,為保證摘要內容與查詢密切相關,需要對子主題進行篩選,過濾掉與查詢無關或相關度低的子主題。同時由于摘要長度的限制,摘要應盡量覆蓋當前主題下的重要子主題,因此還需根據(jù)重要度對相關子主題進行排序。

        1) 子主題篩選

        本文過濾掉與查詢之間相關度為0的子主題,得到與查詢相關的子主題。相關度計算方法是,將查詢與子主題內每個句子之間的最大相似度值作為查詢與子主題的相關度。其中查詢與子主題句之間的相似度通過向量余弦來計算。

        假設查詢和子主題句的詞頻向量分別為q=(q1,q2,…,qn) 和s=(s1,s2,…,sn),則它們之間的相似度為:

        (4)

        假設子主題T有m個句子,則子主題可表示為句子集合T={t1,t2,…,tm},查詢q與子主題T之間的相關度為:

        (5)

        2) 子主題排序

        本文認為,子主題的重要程度可以根據(jù)其大小來度量。包含句子個數(shù)較多的子主題由于在原始文本中所占的篇幅比例較大,可認為是描述了當前主題下較為重要的側面,應優(yōu)先予以涵蓋。因此本文將子主題所包含的句子數(shù)目m作為子主題的重要度,對相關子主題進行排序,選擇前K個子主題,用于最終的摘要生成。

        2.5 摘要生成

        至此得到了與查詢相關的K個重要的子主題有序序列。從第一個子主題開始,循環(huán)選取其中與查詢相似度最大的句子作為摘要句,連接起來形成摘要,直到摘要長度達到最大長度限制為止。其中重要度較高的子主題可能貢獻出多個摘要句,這是符合實際情況的,即對于較重要的主題側面,摘要應涵蓋其中的更多內容。

        3 實驗

        3.1 實驗設置

        本文使用DUC2006評測中用于面向查詢的多文檔摘要任務的語料來評價摘要系統(tǒng)的性能。該語料共包含50個測試文檔集,均為英文語料。語料中的文章來自美聯(lián)社(Associated Press)、《紐約時報》(New York Times)和新華美通(Xinhua Newswire)的新聞報道。每個文檔集里面有25篇文檔和一個topic statement,其中指出了文檔集的主題和需要回答的問題。每個文檔集由4名評委分別做出人工摘要,作為標準答案。系統(tǒng)提交的摘要規(guī)定為250個詞。

        實驗使用DUC2006會議提供的ROUGE-1.5.5工具包[14]對摘要進行評價。該工具包用多個評價指標實現(xiàn)了對摘要的自動評價。評價指標包括:ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-4、ROUGE-L、ROUGE-W、ROUGE-S和ROUGE-SU。對于多文檔摘要的評價來講,ROUGE-1、ROUGE-2、ROUGE-S4、ROUGE-SU4等幾個指標的評價效果較好。

        3.3 實驗結果及分析

        為了進行對比實驗,本文構建了一個Baseline系統(tǒng),系統(tǒng)的設計遵循面向查詢的多文檔摘要系統(tǒng)的一般框架。首先,利用2.2小節(jié)的公式(1)計算文檔集里的每個句子與查詢的相似度,據(jù)此對句子進行排序,選取相似度較高的句子,作為摘要的候選句;然后,為了減少摘要中的冗余,使用了一個簡化的MMR方法,即計算句子與當前摘要的重復度,若重復度低于閾值t,則將句子加入摘要,直至達到最大字數(shù)為止。

        本文在DUC2006評測語料上對Baseline系統(tǒng)、未進行查詢擴展的SEG_SUM_NE系統(tǒng),以及SEG_SUM系統(tǒng)的摘要結果進行了對比。

        SEG_SUM_NE和SEG_SUM系統(tǒng)有兩個參數(shù),即聚類的閾值threshold和子主題的個數(shù)K。Baseline系統(tǒng)也有一個參數(shù),即摘要重復度的閾值t。參數(shù)的選擇對于摘要系統(tǒng)的性能有一定影響。為得到系統(tǒng)的最優(yōu)參數(shù),本文進行了5重交叉檢驗。將全部測試語料隨機分為5部分,每次選取4部分作為訓練語料,余下的1部分作為測試語料。表1為進行5重交叉檢驗后選擇的各個系統(tǒng)的最優(yōu)參數(shù)值。

        表1 交叉檢驗估計出的系統(tǒng)參數(shù)值

        表2給出了各個摘要系統(tǒng)的對比實驗結果。

        表2 與Baseline系統(tǒng)的對比實驗結果

        對比實驗結果表明,與baseline系統(tǒng)相比,基于主題分析的SEG_SUM系統(tǒng)取得了更好的評價結果,ROUGE-1、ROUGE-2、ROUGE-S4和ROUGE-SU4召回率分別提高了9.2%、18.7%、16.0%和15.8%。

        從表2中還可以看出,進行查詢擴展后,生成的摘要質量有所提高,ROUGE-1、ROUGE-2、ROUGE-S4和ROUGE-SU4召回率與未擴展時相比,分別提高了2.3%、7.3%、5.3%和4.9%。這表明基于子主題分布的查詢擴展方法是有效的。詞語之間的子主題相關度能夠從一定程度上反映其語義相關度。

        通過分析SEG_SUM系統(tǒng)和Baseline系統(tǒng)生成的摘要,我們發(fā)現(xiàn),前者所涉及的方面較廣,涵蓋了文檔集內與查詢相關的多個事件或論點。而Baseline系統(tǒng)主要根據(jù)句子與查詢的相似度來生成摘要,并不考慮摘要中的子主題分布情況,經常造成大量摘要句來自同一子主題的現(xiàn)象,雖然Baseline系統(tǒng)通過計算文本重復度,盡量防止加入內容重復的摘要句,從一定程度上緩解了這個問題,但仍難以保證摘要中信息的全面性。

        以評測語料中的D0603C文檔集為例,該文檔集的主題和查詢描述如圖2所示。

        圖2 D0603C評測文檔集的主題和查詢描述

        對于上述文檔集,DUC提供的標準摘要的內容涉及濕地對于生態(tài)環(huán)境的重要作用、濕地受到威脅和破壞的原因、濕地的衰竭現(xiàn)狀、保護濕地的拉姆薩爾公約、世界各國(包括烏干達、中國、美國等)為保護和管理濕地采取的措施、濕地保護受到的阻礙等多個方面??梢娙斯鴮懙恼w的信息極為廣泛,內容豐富多樣。

        而Baseline系統(tǒng)生成的摘要中,有3個句子都是關于中國保護濕地的信息,可以歸為同一個子主題。該子主題占據(jù)了摘要中將近一半的篇幅。來自相同子主題的句子多次出現(xiàn),一方面增加了摘要的冗余度,另一方面使得摘要不得不丟棄了其余的重要信息,降低了摘要的覆蓋度。實際上,Baseline系統(tǒng)主要通過句子與查詢的相關度來提取摘要,雖然系統(tǒng)也考慮了降低摘要句之間的重復度,但實驗結果表明,這個問題仍無法很好地解決。

        在SEG_SUM系統(tǒng)中,主題分析模塊將中國保護濕地的相關信息合并為一個子主題,從該子主題內僅提取1個代表句,同時兼顧其余重要子主題,生成了冗余度低、覆蓋度高的摘要,取得了更好的性能。

        本文也與系統(tǒng)DUC2006參賽系統(tǒng)[15]的評測性能進行了比較。DUC2006評測還提供了一個Baseline系統(tǒng)。其實現(xiàn)方法是從最新的文檔里抽取前250個詞作為摘要。實驗也引用了該系統(tǒng)的性能作為對比。DUC2006采用ROUGE-2和ROUGE-SU4的召回率作為主要評價指標。

        表3 與DUC參賽系統(tǒng)的對比實驗結果

        與DUC2006參賽系統(tǒng)相比,SEG_SUM系統(tǒng)的性能高于參賽系統(tǒng)的總體平均性能,其中ROUGE-2召回率高出7.6%,ROUGE-SU4召回率高出0.5%。但是,大部分參賽系統(tǒng)都利用了語言工具、外部語料和人工構造的知識庫等資源的幫助,以實現(xiàn)對文檔內容的深層理解。而SEG_SUM系統(tǒng)僅對文檔進行淺層分析,利用詞匯分布和文檔結構特點進行主題分析,進而根據(jù)子主題的詞匯使用和大小等表層信息,識別出與查詢相關的重要子主題,生成摘要。系統(tǒng)不依賴于任何外部資源,是一種獨立于具體領域的方法。

        4 結論

        本文提出了一種面向查詢的多文檔摘要方法。該方法利用主題分析技術所提供的子主題信息,綜合考慮子主題與查詢的相關度及其在當前主題下的重要度,對子主題進行篩選和排序,并從中分別選取代表句生成摘要。由于涵蓋了與查詢相關的多個重要子主題,因此摘要在符合查詢要求的前提下,更全面地覆蓋了當前主題下的重要信息。本文還利用詞語在子主題之間的分布情況,提出了不依賴任何外部語義資源的查詢擴展方法。在DUC2006評測語料上進行的對比實驗結果表明,查詢擴展是有效的,同時與baseline系統(tǒng)相比,SEG_SUM系統(tǒng)取得了更好的摘要性能。

        在未來的工作中,我們將考慮對摘要句進行修剪,削除其中的修飾性成分,以進一步提高摘要的覆蓋率。語義分析、指代消解和語言生成技術也將進一步改善摘要質量。

        [1] Jade Goldstein, Mark Kantrowitz, Vibhu Mittal, et al. Summarizing Text Documents:Sentence Selection and Evaluation Metrics[C]//Proceedings of SIGIR-99. Berkeley, CA. 1999:121-128.

        [2] Prasad Pingali, Rahul K and Vasudeva Varma. IIIT Hyderabad at DUC 2007[C]//Proceedings of DUC 2007. 2007.

        [3] Liang Zhou, Chin-Yew Lin, and Eduard Hovy. A BE-based Multi-document Summarizer with Query Interpretation[C]//Proceedings of DUC 2005. B.C. Canada. 2005.

        [4] G.A. Miller. WordNet:A Lexical Databases for English. Communications of the ACM[J]. New York. 1995:39-41.

        [5] Eduard Hovy, Chin-Yew Lin, Junichi Fukumoto. Automated Summarization Evaluation With Basic Elements[C]//Proceedings of the 5th International Conference on Language Resources and Evaluation. 2006.

        [6] Finley Lacatusu, Andrew Hickl. LCC’s GISTexter at DUC 2006:Multi-Strategy Multi-Document Summarization[C]//Proceedings of DUC 2006. 2006.

        [7] Katja Filippova, Mihai Surdeanu, Massimiliano Ciaramita, et al. Company-Oriented Extractive Summarization of Financial News[C]//Proceedings of the 12th Conference of the European Chapter of the ACL, Athens, Greece. 2009:246-254.

        [8] 秦兵, 劉挺, 陳尚林,等. 多文檔文摘中句子優(yōu)化選擇方法研究[J].計算機研究與發(fā)展, 2006, 43(6):1129-1134.

        [9] 鄭義, 黃萱菁, 吳立德. 文本自動綜述系統(tǒng)的研究與實現(xiàn)[J]. 計算機研究與發(fā)展, 2003, 40(11):1606-1611.

        [10] Kathleen R. McKeown, Judith L. Klavans, Vasileios Hatzivassiloglou, et al. Towards multi-document summarization by reformulation:Progress and prospects[C]//Proceedings of the 17th National Conference on Artificial Intelligence. 1999.

        [11] Olivier Ferret. Finding document topics for improving topic segmentation[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics. Prague, Czech Republic. 2007:480-487.

        [12] Freddy Y. Y. Choi. Advances in domain independent linear text segmentation[C]//Proceedings of North American chapter of the Association for Computational Linguistics annual meeting. Seattle. 2000.

        [13] Fragkou Pavlina, Petridis Vassilios, Kehagias Athanasios. A Dynamic Programming Algorithm for Linear Text Segmentation[J]. Journal of Intelligent Information Systems. 2004, 23(2):179-197.

        [14] Chin-Yew Lin. Looking for a few good metrics:ROUGE and its evaluation[C]//Proceedings of NTCIR Workshop. Tokyo, Japan. 2004.

        [15] Hoa Trang Dang. Overview of DUC 2006[C]//Proceedings of DUC 2006. 2006

        男女av免费视频网站| 久久综合亚洲色社区| 区一区一日本高清视频在线观看 | 少妇被爽到自拍高潮在线观看| 精品一级一片内射播放| 18禁成人黄网站免费观看| 色综合无码av网站| 无码人妻专区一区二区三区| 中文字幕一区二区人妻性色av | 2021久久精品国产99国产精品| 在线欧美精品二区三区| 丝袜美女美腿一区二区| 变态另类手机版av天堂看网| 人妻丰满熟妇av无码区不卡| 秋霞影院亚洲国产精品| 中文天堂一区二区三区| 青青草国产在线视频自拍| 日日摸天天摸人人看| 亚洲午夜无码AV不卡| 人妻露脸国语对白字幕| 亚洲国产精品久久艾草| 国产性一交一乱一伦一色一情| 色噜噜狠狠一区二区三区果冻| 国产无套视频在线观看香蕉| 国产精品女同二区五区九区| 亚洲av日韩av激情亚洲| 少女高清影视在线观看动漫| 91精品国产91热久久p| 国产成人精品一区二区不卡| 国产激情综合在线观看| 国产在线观看入口| 国产一级一片内射视频在线| 伊人久久精品无码av一区| 免费人成视频x8x8| 亚洲日本VA午夜在线电影| 人妻少妇精品专区性色anvn| 女人让男人桶爽30分钟| 国产偷2018在线观看午夜| av国产免费在线播放| 久久精品aⅴ无码中文字字幕| 最新69国产成人精品视频免费|