劉茂福,李文捷,姬東鴻
(1.武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430065;
2.香港理工大學(xué) 計(jì)算機(jī)系,香港;3.武漢大學(xué) 計(jì)算機(jī)學(xué)院,湖北 武漢 430072)
抽取式自動(dòng)摘要方法著重于從文檔選取包含重要概念的句子。近年來,越來越多的研究者用事件代表概念并提出了基于事件的抽取式自動(dòng)摘要方法[1-2]。基于事件的抽取式自動(dòng)摘要主要是從單文檔或多文檔中抽取并重組那些描述重要事件的句子,因此,基于事件的句子重要性計(jì)算成為了當(dāng)前的研究熱點(diǎn)。
對(duì)于事件的定義,不同領(lǐng)域有不同的看法,信息檢索領(lǐng)域?qū)⒅x在文檔級(jí)別上,而信息抽取卻在句子級(jí)別上定義事件[3-4]。但不同領(lǐng)域的一致觀點(diǎn)是事件應(yīng)包含一個(gè)或多個(gè)參與者、發(fā)生時(shí)間和地點(diǎn),因此,在基于事件的自動(dòng)摘要中,一般將事件形式化為“[Who] did [What] to [Whom] [When] and [Where]”;其中,“did [What]”指示行為,是事件的核心要素,其他的皆為補(bǔ)充成分。故而,我們將在句子級(jí)別上識(shí)別事件并重點(diǎn)研究“did [What]”,將文檔中的動(dòng)詞和動(dòng)名詞都看成事件項(xiàng),這些事件項(xiàng)可以完全或部分標(biāo)識(shí)事件的發(fā)生。
目前,基于事件的自動(dòng)摘要方法主要強(qiáng)調(diào)源文檔中單個(gè)事件的統(tǒng)計(jì)特征,忽略了事件之間的關(guān)聯(lián)。而在自動(dòng)摘要中,尤其是具有同一或相似主題的多篇文檔,多個(gè)事件肯定是相關(guān)的。對(duì)事件分布相似性的研究表明,在自動(dòng)摘要中考慮事件統(tǒng)計(jì)關(guān)系特征會(huì)提高摘要的質(zhì)量[5]。這促使我們?cè)诨谑录淖詣?dòng)摘要中進(jìn)一步研究事件語義關(guān)系,尤其是如何利用這些事件語義關(guān)系。在本文中,通過事件項(xiàng)語義關(guān)系來部分表示事件語義關(guān)系,事件項(xiàng)是指文檔中的動(dòng)詞和動(dòng)名詞;因此,本文的目的就是研究如何利用事件項(xiàng)之間的語義關(guān)系來提高多文檔自動(dòng)摘要的質(zhì)量。
一旦從源文檔抽取了所有事件項(xiàng)后,根據(jù)外部動(dòng)詞語義資源,可以獲取事件項(xiàng)之間的語義關(guān)系,從而基于這些語義關(guān)系生成事件項(xiàng)語義關(guān)系圖。在事件語義關(guān)系圖的基礎(chǔ)上,DBSCAN圖聚類算法被用來對(duì)事件項(xiàng)進(jìn)行聚類,從而生成多個(gè)事件項(xiàng)類,同一類的事件項(xiàng)之間由事件語義關(guān)系相連。
我們假設(shè)多篇源文檔有一系列的事件組成,聚在同一類中的兩個(gè)或多個(gè)事件項(xiàng)描述了相似甚至相同的事件。在這種情況下,完全可以為每類事件項(xiàng)選擇一個(gè)代表項(xiàng),只要保證這個(gè)代表項(xiàng)能出現(xiàn)在最終摘要中,就不失一般性。
我們也可以假設(shè)多篇源文檔具有同一個(gè)主題,而多個(gè)事件項(xiàng)類別中的最重要的那個(gè)事件項(xiàng)類恰好描述了這一主題。在這種情況下,可以把最重要的事件項(xiàng)類中的所有事件項(xiàng)作為代表項(xiàng),在代表項(xiàng)的基礎(chǔ)上選擇句子生成最終摘要。
除上面提到的Filatova等人基于事件和事件關(guān)系研究自動(dòng)摘要技術(shù)外,徐永東等人通過系統(tǒng)地描述不同層面的文本單元之間的相互關(guān)系以及文檔集合蘊(yùn)含的事件在時(shí)間上的發(fā)生及演變,將多篇文檔在不損失文檔集合原有信息的前提下實(shí)現(xiàn)信息融合,并在此基礎(chǔ)上為多篇文檔生成摘要[6]。吳中勤等人基于語義關(guān)系三元組來完成問答式自動(dòng)摘要系統(tǒng),語義關(guān)系三元組由一句中的實(shí)詞對(duì)以及表示該實(shí)詞對(duì)語義關(guān)系的關(guān)系詞組成[7]。
實(shí)際上,很多研究者已經(jīng)在自動(dòng)摘要中嘗試過各種聚類方法。Hatzivassiloglou等人使用原子和組合特征將高度相似的不同文檔段落聚集到不同的類中,然后從每個(gè)段落類中選擇代表段落生成摘要[8-10]。Zha等人基于各種特征使用基于圖的聚類算法對(duì)句子進(jìn)行聚類,然后從句子類中選擇句子生成摘要[11-15]。以上聚類的對(duì)象一般是段落或句子,進(jìn)行聚類時(shí)使用粗粒度;而本文選擇事件項(xiàng)作為聚類單位并在事件項(xiàng)語義關(guān)系的基礎(chǔ)上執(zhí)行聚類算法。實(shí)際上,本文是在我們文獻(xiàn)[16]工作基礎(chǔ)上的擴(kuò)展。
在基于事件項(xiàng)語義關(guān)系圖聚類的自動(dòng)摘要(ESRCS)方法中,經(jīng)過源文檔集預(yù)處理、事件項(xiàng)語義圖創(chuàng)建、事件項(xiàng)聚類、類排序、事件項(xiàng)選擇與排序以及、句子重要性計(jì)算、句子抽取等六個(gè)階段的處理后,最終為包含多個(gè)文檔的源文檔集生成摘要。具體的框架模型如圖1所示。
圖1 ESRCS框架模型
在源文檔集預(yù)處理階段,首先對(duì)源文檔進(jìn)行分句和詞性標(biāo)注,然后從標(biāo)注了詞性的文檔中抽取事件項(xiàng),本文的事件項(xiàng)包括動(dòng)詞和動(dòng)名詞。根據(jù)從外部語義資源VerbOcean[17]中獲取的事件項(xiàng)語義關(guān)系創(chuàng)建事件項(xiàng)語義圖,本文主要關(guān)注VerbOcean中的stronger-than類型的動(dòng)詞語義關(guān)系。在事件項(xiàng)語義圖表示的事件項(xiàng)語義關(guān)系的基礎(chǔ)上,使用改進(jìn)的DBSCAN聚類算法對(duì)事件項(xiàng)進(jìn)行聚類。
事件項(xiàng)的重要性計(jì)算可以從局部類和全局文檔集兩個(gè)不同角度來進(jìn)行;然后根據(jù)類中包含的事件項(xiàng)的重要性對(duì)相應(yīng)的事件項(xiàng)類進(jìn)行類排序。完成類排序后,有兩種代表項(xiàng)選擇方法,一種是選擇最重要的類來表示源文檔集的主題,而將最重要類中的所有事件項(xiàng)作為代表項(xiàng);另一種則是選擇每類中最重要的事件項(xiàng)作為類代表項(xiàng)。一旦為每個(gè)事件項(xiàng)計(jì)算出重要性后,就可以為選擇的最重要類中的所有代表項(xiàng)排序,但為每個(gè)類選擇出的類代表項(xiàng)的排序卻取決于前面的類排序。
只為那些包含代表項(xiàng)的句子計(jì)算重要性,計(jì)算的依據(jù)是句子包含的代表項(xiàng)的重要性;然后為每個(gè)代表項(xiàng)選擇包含它們的最重要的句子組成最終摘要,被抽取的句子在最終摘要中的排序取決于它們所包含的代表項(xiàng)的排序。
本文在基于事件的自動(dòng)摘要中引入動(dòng)詞語義關(guān)系資源VerbOcean,與WordNet以及其他語義資源不同的是,它在更細(xì)粒度的級(jí)別上定義了五類動(dòng)詞語義關(guān)系,這與我們要在摘要中研究事件項(xiàng)語義關(guān)系不謀而合。本文主要研究VerbOcean中的stronger-than關(guān)系,該類關(guān)系的含義是,當(dāng)兩個(gè)動(dòng)詞意思相近時(shí),一個(gè)可能比另一個(gè)表示的含義更強(qiáng)烈。本文對(duì)VerbOcean進(jìn)行相應(yīng)處理后,共有22 306條有效關(guān)系記錄,共包括3 072個(gè)動(dòng)詞;在22 306條有效關(guān)系記錄中,stronger-than關(guān)系共有4 420條,涉及到1 794個(gè)動(dòng)詞。
下面是stronger-than關(guān)系的例子。
“destroy” stronger-than “damage”
“kill” stronger-than “injure”
“harm” stronger-than “disturb”
事件項(xiàng)語義圖可以形式化定義為一個(gè)二元組G=(V,E),其中V是圖中非空節(jié)點(diǎn)集,這里的節(jié)點(diǎn)指事件項(xiàng),E是連接圖中事件項(xiàng)之間的邊集,這里的連接使用事件項(xiàng)之間的語義關(guān)系。如果連接事件項(xiàng)的語義關(guān)系具有對(duì)稱性,則事件項(xiàng)語義圖就是一個(gè)無向圖;否則,事件項(xiàng)語義圖是有向圖。
圖2是源自DUC 2001測試語料庫某個(gè)多文檔集的stronger-than事件項(xiàng)語義關(guān)系圖的一部分,因stronger-than關(guān)系具有反對(duì)稱性,所以圖2是一個(gè)有向圖。在圖2中,“satisfy”表示“令人滿意”,而“please”的含義是“使人高興、討人喜歡”,明顯比“satisfy”強(qiáng)度大,“滿意”的程度深,故而有從“please”到“satisfy”的有向邊,表示“please stronger-than satisfy”。
圖2 stronger-than事件項(xiàng)語義關(guān)系圖示例
從圖2中可以看出,事件項(xiàng)之間經(jīng)由表示語義關(guān)系的有向弧連接。有了事件項(xiàng)語義圖,就可以利用圖中信息,例如節(jié)點(diǎn)度,來計(jì)算事件項(xiàng)的重要性;當(dāng)然也可以根據(jù)句子包含的事件項(xiàng)的重要性來決定該句子是否應(yīng)出現(xiàn)在最終摘要中。
在圖2中,“exceed”、“reach”與“grow”等是語義相關(guān)的,它們可能在描述同一或相似主題,應(yīng)該歸為一類;而“exceed”同“destroy”、“harm”以及“devast”是明顯語義不相關(guān)的,應(yīng)該將“destroy”、“harm”以及“devast”等歸為另外一類。
本文使用DBSCAN聚類算法[18]來對(duì)語義相關(guān)的事件項(xiàng)進(jìn)行歸類,DBSCAN是一種基于密度的空間聚類算法。使用該算法,關(guān)鍵要確定兩個(gè)參數(shù),即Eps和MinPts,其中Eps指示在空間中的搜索半徑,MinPts則表示節(jié)點(diǎn)領(lǐng)域中應(yīng)該包含的其他節(jié)點(diǎn)的最小數(shù)目,這兩個(gè)參數(shù)我們將在實(shí)驗(yàn)階段給出。
除了兩個(gè)關(guān)鍵參數(shù)外,我們對(duì)DBSCAN算法做了一些改進(jìn),使之更適合本文的事件項(xiàng)語義關(guān)系圖。
(1) 如果使用DBSCAN算法給定的終止條件,事件項(xiàng)語義圖中的大多數(shù)事件項(xiàng)會(huì)被聚在一類中,這是因?yàn)樵~的多義性會(huì)導(dǎo)致大多數(shù)的事件項(xiàng)都是語義相連的;在這種情況下,我們將DBSCAN的終止條件改為搜索步驟不超過3。實(shí)際上,隨著搜索步驟和圖中通路長度的增加,通路中兩個(gè)端點(diǎn)的語義相關(guān)度會(huì)變得越來越小。
(2) 事件項(xiàng)語義圖中存在只有入度沒有出度的節(jié)點(diǎn),如圖2中的“acknowledge”和“hit”,我們將這些節(jié)點(diǎn)設(shè)置為為特殊事件項(xiàng)(SET:Special Event Term)。在搜索過程中,一旦到達(dá)了某個(gè)SET,便停止搜索。
(3) 同特殊事件項(xiàng)相連的節(jié)點(diǎn)可以分為兩類,一類是除該特殊事件項(xiàng)外還有其他節(jié)點(diǎn)與之相連,如圖2中相對(duì)與特殊事件項(xiàng)“hit”的“smash”;另一類是除該特殊事件項(xiàng)外沒有其他節(jié)點(diǎn)相連,如圖2中相對(duì)與特殊事件項(xiàng)“acknowledge”的“confirm”。對(duì)第一類節(jié)點(diǎn)不做任何處理,而將第二類節(jié)點(diǎn)同特殊事件項(xiàng)歸并為一類。
圖3是使用改進(jìn)后的DBSCAN算法對(duì)圖2的事件項(xiàng)進(jìn)行聚類的結(jié)果?!癱onfirm”和“acknowledge”在同一類,而“smash”和“hit”被聚在了不同類中。使用DBSCAN算法進(jìn)行每類的搜索時(shí),開始事件項(xiàng)都用粗體進(jìn)行標(biāo)示,本文使用開始事件項(xiàng)標(biāo)示該類,如“warn”標(biāo)示有“warn”、“advise”、“report”和“caution”組成的事件項(xiàng)類。
圖3 事件項(xiàng)語義關(guān)系圖的聚類結(jié)果
可以根據(jù)類重要性對(duì)使用DBSCAN算法獲取的每個(gè)事件項(xiàng)類進(jìn)行排序。類重要性可以使用如下公式(1)計(jì)算得到。
(1)
其中,dt是事件項(xiàng)語義圖中指定事件項(xiàng)t的度(在有向圖中為節(jié)點(diǎn)入度與出度的和);C是所有的事件項(xiàng)類集合,而Ci是第i個(gè)事件項(xiàng)類。公式(1)從全局角度計(jì)算事件項(xiàng)類的重要性,也就是說使用某類中所有事件項(xiàng)的度數(shù)和與所有類中所有事件項(xiàng)度數(shù)和的商來表示。
我們可以依據(jù)事件項(xiàng)的重要性來選擇代表項(xiàng)并基于類排序結(jié)果對(duì)代表項(xiàng)進(jìn)行排序,可以從局部(Local)和全局(Global)兩個(gè)角度來計(jì)算事件項(xiàng)重要性。
從局部事件項(xiàng)類的角度計(jì)算類中事件項(xiàng)的重要性,如公式(2)所示,用事件項(xiàng)在事件項(xiàng)語義圖中的度數(shù)除以該事件項(xiàng)所在類的所有事件項(xiàng)的總度數(shù)。
(2)
從全局事件項(xiàng)類的角度計(jì)算某個(gè)事件項(xiàng)類中事件項(xiàng)的重要性,如公式(3)所示,用事件項(xiàng)在事件項(xiàng)語義圖中的度數(shù)除以所有事件項(xiàng)類的所有事件項(xiàng)的總度數(shù)。
(3)
獲得事件項(xiàng)的重要性后,可以采用兩種策略從事件項(xiàng)類中選擇代表項(xiàng),即OTAC(One Term All Cluster)和OCAT(One Cluster All Term);OTAC是指從每個(gè)事件項(xiàng)類中抽取該類中最重要的事件項(xiàng),而OCAT則是指選取最重要的事件項(xiàng)類中的所有事件項(xiàng)。
在OTAC選擇策略中,從每個(gè)事件項(xiàng)類選擇其中最重要的事件項(xiàng)作為代表項(xiàng)。在此種選擇策略中,事件項(xiàng)類中每個(gè)事件項(xiàng)的重要性只用于在當(dāng)前類中競爭,一旦為每類選擇了代表項(xiàng),代表項(xiàng)排序與其類排序相同。例如,在圖3的類排序中,“render”類比“market”類靠前,在“market”類中選擇事件項(xiàng)“distribute”,而事件項(xiàng)“destroy”則在“render”類中勝出,雖然計(jì)算所得的重要性“distribute”比“destroy”高,但在最終的代表項(xiàng)排序中,仍然是事件項(xiàng)“destroy”在前。
在OCAT選擇策略中,在類排序結(jié)果中選擇最靠前的類,被選擇類的所有事件項(xiàng)都作為代表項(xiàng),代表項(xiàng)按照它們?cè)诒贿x擇類中的競爭結(jié)果來排序。
代表項(xiàng)一般會(huì)出現(xiàn)在源文檔集的多個(gè)句子中,在這種情況下,需要評(píng)價(jià)這些句子并從中抽取最重要的,可以使用MAX和SUM這種方法來計(jì)算句子重要性。
在MAX方法中,把出現(xiàn)在句子中的最重要事件項(xiàng)的重要性作為整個(gè)句子的重要性。如果事件項(xiàng)重要性是使用公式(2)計(jì)算的,句子重要性則只在與代表項(xiàng)同類的事件項(xiàng)范圍內(nèi)進(jìn)行計(jì)算,因?yàn)轭悇e不同的事件項(xiàng)之間沒有可比性。若事件項(xiàng)重要性是使用公式(3)計(jì)算的,則類別不同的事件項(xiàng)之間具有可比性,句子重要性將在所有事件項(xiàng)范圍內(nèi)進(jìn)行計(jì)算。
在SUM方法中,把出現(xiàn)在句子中的所有事件項(xiàng)的重要性的和作為整個(gè)句子的重要性。對(duì)事件項(xiàng)重要性計(jì)算公式的處理與MAX方法相同。
一旦得到句子重要性,就可以依據(jù)句子重要性對(duì)其進(jìn)行排序并抽取包含代表項(xiàng)的最重要的句子,最后將這些句子進(jìn)行重組成摘要。抽取的句子在重組摘要中的順序與其代表項(xiàng)的排序結(jié)果一致。仍然基于前面的例子進(jìn)行說明,已經(jīng)為“render”類選擇了事件項(xiàng)“destroy”,為“market”類選擇了“distribute”,現(xiàn)在假設(shè)為“distribute”選擇了句子s1,為“destroy”選擇了句子s2,,那么在最終摘要中,句子s2在句子s1前。
使用DUC 2001多文檔摘要測試語料庫對(duì)本文提出的方法進(jìn)行評(píng)價(jià),DUC 2001測試語料庫共有30個(gè)文檔集。經(jīng)過分句、詞性標(biāo)注、事件項(xiàng)抽取等預(yù)處理后,每個(gè)文檔集的事件項(xiàng)數(shù)目以及具有stronger-than關(guān)系的事件項(xiàng)數(shù)目如圖4所示。
使用改進(jìn)的DBSCAN算法對(duì)DUC 2001測試語料庫的每個(gè)文檔集的stronger-than關(guān)系進(jìn)行聚類后,得到的事件項(xiàng)類別個(gè)數(shù)信息如圖5所示。
使用自動(dòng)評(píng)測工具ROUGE[19]對(duì)生成的摘要進(jìn)行評(píng)測,觀察ROUGE-1、ROUGE-2和ROUGE-W三個(gè)評(píng)測值,本文實(shí)驗(yàn)中生成的摘要長度為200字。
TF×IDF是自動(dòng)摘要中常用的基于詞頻的統(tǒng)計(jì)特征,本文使用句子中所有非停用詞的TF×IDF特征值的和來評(píng)價(jià)句子的重要性。PageRank[20]是最著名的基于圖的排序算法,本文在生成事件項(xiàng)語義圖后,使用PageRank計(jì)算圖中事件項(xiàng)的重要性?;谠~頻的TF×IDF方法和PageRank方法的ROUGE結(jié)果如表1所示。
圖4 DUC 2001測試語料庫的每個(gè)文檔集事件項(xiàng)信息
圖5 每個(gè)文檔集事件項(xiàng)聚類后的事件項(xiàng)類別個(gè)數(shù)信息
表1 TF×IDF和PageRank的ROUGE結(jié)果
在改進(jìn)的DBSCAN聚類算法中,考慮到事件項(xiàng)語義圖中沒有明確的距離概念,參數(shù)Eps的值給定為一個(gè)語義關(guān)系步,而參數(shù)MinPts賦值為經(jīng)驗(yàn)值3。
如果基于公式(2)從局部事件項(xiàng)類角度計(jì)算事件項(xiàng)的重要性并采用OTAC策略來為每類選擇代表項(xiàng),然后分別使用MAX和SUM方法來選擇句子,實(shí)驗(yàn)結(jié)果如表2所示。
表2 局部角度(Local)和OTAC的ROUGE結(jié)果
從表2可以看出,SUM方法的結(jié)果好于MAX方法??赡茉蚴荕AX方法在計(jì)算句子重要性時(shí)只考慮了代表項(xiàng)的重要性,而SUM不僅考慮代表項(xiàng),并且還考慮了出現(xiàn)在句子中與代表項(xiàng)同類的非代表項(xiàng),因而與MAX方法相比,SUM方法利用了比較多的信息。
為了利用更多的信息,基于公式(3)從全局事件項(xiàng)類角度計(jì)算事件項(xiàng)的重要性,這樣句子的重要性不僅依賴于代表項(xiàng)所在類的所有事件項(xiàng),并且還依賴于其他所有類中的事件項(xiàng)。實(shí)驗(yàn)結(jié)果如表3所示。
表3 全局角度(Global)和OTAC的ROUGE結(jié)果
表3的結(jié)果比表2的結(jié)果差,可能原因是當(dāng)使用句子中所有的事件項(xiàng)來計(jì)算句子重要性時(shí),代表項(xiàng)的作用被削弱;同時(shí),長句子可能包含更多的事件項(xiàng),使其重要性遠(yuǎn)遠(yuǎn)高于短句子,最終摘要選中的都是長句子,從而導(dǎo)致最終摘要中包括了太多的冗余信息。
如果基于公式(2)從局部事件項(xiàng)類范圍內(nèi)計(jì)算事件項(xiàng)的重要性并采用OCAT策略來選擇最重要事件項(xiàng)類中的事件項(xiàng)作為代表項(xiàng),然后分別使用MAX和SUM方法來選擇句子,實(shí)驗(yàn)結(jié)果如表4所示。
表4 局部角度(Local)和OCAT的ROUGE結(jié)果
如果基于公式(3)從全局事件項(xiàng)類角度計(jì)算事件項(xiàng)的重要性并采用OCAT策略來選擇最重要事件項(xiàng)類中的事件項(xiàng)作為代表項(xiàng),然后分別使用MAX和SUM方法來選擇句子,實(shí)驗(yàn)結(jié)果如表5所示。
表5 全局角度(Global)和OCAT的ROUGE結(jié)果
表4和表5顯示采用OCAT策略來選擇最重要的事件項(xiàng)類并將該類的所有事件項(xiàng)作為代表項(xiàng)比OTAC策略的實(shí)驗(yàn)結(jié)果要好,這表明DUC 2001多文檔摘要測試語料庫的每個(gè)文檔集中的每個(gè)文檔都在描述同一個(gè)主題。
無論是OTAC策略還是OCAT策略,實(shí)驗(yàn)結(jié)果都遠(yuǎn)遠(yuǎn)好于基于詞頻TF×IDF方法。采用OCAT策略選擇代表項(xiàng)并使用SUM方法計(jì)算句子重要性,ROUGE-1實(shí)驗(yàn)結(jié)果比基于PageRank的方法提高大概3.3%,而ROUGE-2實(shí)驗(yàn)結(jié)果提高了4.6%;這表明在事件項(xiàng)語義圖的基礎(chǔ)上對(duì)事件項(xiàng)進(jìn)行聚類是有效的。
通過對(duì)自動(dòng)摘要語料庫文檔集的觀察和預(yù)處理,本文提出兩個(gè)假設(shè)。一個(gè)假設(shè)就是對(duì)于具有某類語義關(guān)系的兩個(gè)事件項(xiàng),它們代表了相同或相似的事件;而另一個(gè)假設(shè)則是指語料庫的同一個(gè)文檔集應(yīng)該有一個(gè)代表性的主題事件。對(duì)于第一個(gè)假設(shè),從每一個(gè)聚類中選擇最重要的事件項(xiàng)作為該類的代表項(xiàng);至于第二個(gè)假設(shè),選擇最重要的聚類并將該類的所有事件項(xiàng)作為代表項(xiàng)。針對(duì)每個(gè)代表項(xiàng),則選擇包含了該代表項(xiàng)的最重要的句子作為摘要候選句。
在事件項(xiàng)語義關(guān)系圖上使用聚類算法獲得事件項(xiàng)類后,本文分別從局部和全局兩個(gè)角度基于策略O(shè)TAC和OCAT選擇代表項(xiàng),并使用ROUGE對(duì)生成的最終摘要進(jìn)行評(píng)測,實(shí)驗(yàn)結(jié)果表明從全局范圍使用OCAT策略和SUM方法生成的摘要明顯好于基于詞頻TF×IDF和PageRank方法。
[1] Naomi Daniel, Dragomir Radev and Timothy Allison. Sub-event based Multi-document Summarization[C]//Proceedings of the HLT-NAACL Workshop on Text Summarization. 2003:9-16.
[2] Elena Filatova and Vasileios Hatzivassiloglou. Event-based Extractive Summarization[C]//Proceedings of ACL 2004 Workshop on Summarization, 2004:104-111.
[3] 吳平博,陳群秀,馬亮.基于時(shí)空分析的線索性事件的抽取與集成系統(tǒng)研究[J].中文信息學(xué)報(bào),2006,20(1):21-28.
[4] 袁毓林.用動(dòng)詞的論元結(jié)構(gòu)跟事件模板相匹配——種由動(dòng)詞驅(qū)動(dòng)的信息抽取方法[J].中文信息學(xué)報(bào), 2005,19(5):37-43.
[5] Wenjie Li, Wei Xu, Mingli Wu, et al. Extractive Summarization using Inter- and Intra- Event Relevance[C]//Proceedings of ACL 2006:369-376.
[6] 徐永東,徐志明,王曉龍.基于信息融合的多文檔自動(dòng)文摘技術(shù)[J].計(jì)算機(jī)學(xué)報(bào),2007,30(11):2048-2054.
[7] 吳中勤,黃萱菁,吳立德. 基于語義關(guān)系三元組的問答式文摘[J].計(jì)算機(jī)工程,2008,34(6):194-196.
[8] Vasileios Hatzivassiloglou, Judith L. Klavans, Melissa L. Holcombe, et al. Simfinder: A Flexible Clustering Tool for Summarization[C]//Workshop on Automatic Summarization, NAACL, 2001.
[9] Yohei Seki, Koji Eguchi and Noriko Kando. User-Focused Multi-Document Summarization with Paragraph Clustering and Sentence-Type Filtering[C]//Proceedings of the Fourth NTCIR Workshop on Research in Information Access Technologies: Information Retrieval, QuestionAnswering, and Summarization, 2004:459-466.
[10] 劉海濤,老松楊,韓智廣.自動(dòng)文摘系統(tǒng)中的段落自適應(yīng)聚類研究[J].微計(jì)算機(jī)信息,2006,22(6):288-291.
[11] 陳戈,段建勇,陸汝占.基于潛在語義索引和句子聚類的中文自動(dòng)文摘[J].計(jì)算機(jī)仿真,2008,25(7):82-85.
[12] Hongyuan Zha. Generic Summarization and keyphrase Extraction using Mutual Reinforcement Principle and Sentence Clustering[C]//Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval, 2002:113-120.
[13] Advaith Siddharthan, Ani Nenkova and Kathleen McKeown. Syntactic Simplification for Improving Content Selection in Multi-Document Summarization[C]//Proceedings of the 20th International Conference on Computational Linguistics (COLING 2004), 2004:896-902.
[14] Yi Guo and George Stylios. An Intelligent Summarization System Based on Cognitive Psychology[J]. Journal of Information Sciences, 2005, 174(1-2):1-36.
[15] 郭慶琳,吳克河,吳慧芳,李存斌.基于文本聚類的多文檔自動(dòng)文摘研究[J].計(jì)算機(jī)研究與發(fā)展,2007,44(z2):140-144.
[16] Maofu Liu, Wenjie Li, Mingli Wu, et al. Extractive Summarization Based on Event Term Clustering[C]//Proceedings of ACL 2007, 185-188.
[17] Chklovski Timothy and Pantel Patrick. VerbOcean: Mining the Web for Fine-Grained Semantic Verb Relations[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing, 2004.
[18] Martin Ester, Hans-peter Kriegel, S. J?rg, et al. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise [C]//Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining, 1996:226-231.
[19] Chin-Yew Lin and Eduard Hovy. Automatic Evaluation of Summaries using N-gram Cooccurrence Statistics[C]//Proceedings of HLTNAACL 2003, 71-78.
[20] Page Lawrence, Brin Sergey, Motwani Rajeev and Winograd Terry. The PageRank CitationRanking: Bring Order to the Web[R]. Technical Report,Stanford University, 1998.