韓永峰,許旭陽(yáng),李弼程,朱武斌,陳 剛
(解放軍信息工程大學(xué) 信息工程學(xué)院,河南 鄭州450002)
在當(dāng)今計(jì)算機(jī)和互聯(lián)網(wǎng)蓬勃發(fā)展的時(shí)代,大量的文本信息被快速地傳送與分享到全球各地,信息過(guò)載(Information Overload)問(wèn)題也隨之產(chǎn)生。如何從大量無(wú)序、雜亂、無(wú)結(jié)構(gòu)的文本中高效獲取有用信息已成為一個(gè)亟待解決的問(wèn)題。在眾多的信息處理方法中,多文檔自動(dòng)摘要被視為一項(xiàng)不可或缺的關(guān)鍵技術(shù),它是利用計(jì)算機(jī)將同一主題下的多個(gè)文本描述的主要內(nèi)容通過(guò)信息壓縮技術(shù)提煉為一個(gè)文本的自然語(yǔ)言處理技術(shù)[1],在軍事和民用方面都具有極其重要的實(shí)用意義。
目前,自動(dòng)摘要方法主要分為兩大類:一是基于統(tǒng)計(jì)的機(jī)械摘要;二是基于意義的理解摘要?;诮y(tǒng)計(jì)的機(jī)械摘要源于Luhn[2]的思想,主要是利用各種統(tǒng)計(jì)信息如位置信息、頻率統(tǒng)計(jì)等找出最能代表文章主題的句子作為摘要句。這種方法雖然容易實(shí)現(xiàn),但對(duì)于包含多個(gè)事件的文檔集進(jìn)行摘要時(shí),不僅常常漏掉次重要的事件,而且對(duì)文檔內(nèi)容的覆蓋度較低,往往形成大量的冗余。
基于意義理解的摘要是從語(yǔ)言學(xué)角度理解文檔集合,進(jìn)而生成文檔集合的自動(dòng)摘要結(jié)果[3],它需要對(duì)文章進(jìn)行句法分析和語(yǔ)義分析。此方法生成的摘要質(zhì)量較高,但需要龐大的專家知識(shí)庫(kù)和完善的語(yǔ)言學(xué)規(guī)則,且受限于領(lǐng)域,性價(jià)比較低。
為了克服這些缺點(diǎn),近年來(lái)一些自動(dòng)摘要方法基于文本片段(例如,段落、句子或事件等)聚類劃分文檔主題,并在此基礎(chǔ)上生成摘要。這種方法理論上冗余性更少,信息覆蓋率更大,是目前比較流行的一種研究方法。
Jiang Changjin等[4]通過(guò)識(shí)別組合詞和段落聚類實(shí)現(xiàn)中文自動(dòng)摘要。首先根據(jù)詞或短語(yǔ)的頻率、詞性、位置和長(zhǎng)度計(jì)算它們的權(quán)重,在此基礎(chǔ)上計(jì)算句子的權(quán)值;然后將相鄰的段落依據(jù)相似度聚到相同類或不同類中;最后根據(jù)類中句子的權(quán)值選擇摘要句組成摘要。
Zhang Peiying等[5]提出了一種基于句子聚類和抽取的自動(dòng)摘要方法。首先對(duì)文本中的句子依據(jù)語(yǔ)義距離進(jìn)行聚類;然后用基于多特征融合的方法計(jì)算類中每個(gè)句子的權(quán)重;最后通過(guò)一定規(guī)則抽取句子組成摘要。
Naomi Daniel[6]首次提出將新聞話題劃分為一系列子事件并應(yīng)用在多文檔摘要中,引起了人們對(duì)基于事件多文檔摘要研究的興趣。劉茂福等[7]提出一種基于事件項(xiàng)語(yǔ)義圖聚類的多文檔摘要方法,將文檔中的動(dòng)詞和動(dòng)名詞看成事件項(xiàng),然后對(duì)事件項(xiàng)進(jìn)行聚類,最后通過(guò)抽取包含代表事件項(xiàng)的句子生成摘要。然而,多文檔摘要以段落為單元的研究已沒有更多的余地,因?yàn)橐远温錇閱卧獣?huì)包含許多冗余信息;實(shí)際上句子作為摘要的最小單位也不是最理想的,因?yàn)槲谋局杏行┚渥雍椭黝}無(wú)關(guān),且有時(shí)在一個(gè)句子中還會(huì)包含冗余信息,有時(shí)單個(gè)句子表達(dá)的意思也不夠完整,需要多個(gè)句子才能表達(dá)清楚;其實(shí)文獻(xiàn)[7]中的方法也存在一定的問(wèn)題,例如,事件項(xiàng)只能部分標(biāo)識(shí)事件的發(fā)生,更有甚者是包含事件項(xiàng)的句子不一定都是事件。另外,文檔中很多詞語(yǔ)會(huì)出現(xiàn)兼類情況,例如,“襲擊”可以是動(dòng)詞,也可以是名詞。
針對(duì)以上問(wèn)題,本文將事件抽取技術(shù)與自動(dòng)摘要技術(shù)相結(jié)合,提出一種基于事件抽取的多文檔自動(dòng)摘要方法。首先,改變以段落和句子作為摘要基本單元,嘗試以“事件”為知識(shí)粒度去表示、處理文本,且本文所考慮的“事件”包含的特征更加豐富,不僅僅是文檔中包含動(dòng)詞和動(dòng)名詞的句子;然后,對(duì)抽取出的事件采用兩層聚類得到不同的事件集合;最后,通過(guò)對(duì)事件集合中主旨事件的抽取、排序以及潤(rùn)色,生成摘要。實(shí)驗(yàn)結(jié)果表明,該方法生成的摘要進(jìn)一步減小了冗余,更加簡(jiǎn)潔,是一種有效的多文檔摘要方法。
互聯(lián)網(wǎng)上新聞內(nèi)容豐富、形態(tài)多樣,據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(China Internet Network Information Center,CNNIC)2010年7月15日發(fā)布的《第26次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[8]顯示:網(wǎng)絡(luò)新聞使用率為78.5%,占網(wǎng)絡(luò)信息極大的比重,且?guī)缀跛腥嗣刻於荚陉P(guān)注新聞信息。盡管內(nèi)容多種多樣,出版社、發(fā)布源也不盡相同,但這一體裁的文檔卻有著一些共性。
(1)冗余性。由于新聞具有很強(qiáng)的時(shí)效性,因此同一時(shí)間關(guān)于同一主題的不同報(bào)道會(huì)陳述某些相同的信息,這些報(bào)道之間有很大的重復(fù)性,甚至包含完全相同的句子或段落。
(2)層次性。某些重大的新聞,通常會(huì)有多家媒體對(duì)其進(jìn)行多天的跟蹤報(bào)道。隨著時(shí)間的推移,觀點(diǎn)和事實(shí)會(huì)不斷更新,導(dǎo)致出現(xiàn)“重心”漂移,即一個(gè)新聞主題中出現(xiàn)了不同的事件集。例如,2010年3月29日“莫斯科地鐵爆炸”這一主題新聞就出現(xiàn)了包括:現(xiàn)場(chǎng)、救援、傷亡、調(diào)查、善后以及各方反應(yīng)等不同的事件集合,如圖1所示。
圖1 事件動(dòng)態(tài)變化圖
1.概念層次關(guān)系
著名語(yǔ)言學(xué)家許嘉璐認(rèn)為目前中文信息處理技術(shù)中統(tǒng)計(jì)概率的路已走到了盡頭,必須另辟語(yǔ)義“蹊徑”[9]。而漢語(yǔ)是以“字義基元化,詞義組合化”方式構(gòu)造新詞,因此可以構(gòu)建概念層次關(guān)系,如圖2所示。
圖2 概念層次關(guān)系示意圖
本文結(jié)合新聞文檔特點(diǎn),直接從事件層描述文檔內(nèi)容,建立語(yǔ)言模型,不再以段落、句子或詞語(yǔ)對(duì)文檔進(jìn)行物理上的劃分,而是以“事件”為單位進(jìn)行內(nèi)容邏輯的劃分。這種方法從理論上來(lái)說(shuō),更接近人的認(rèn)知過(guò)程,符合人們正常的認(rèn)知規(guī)律,實(shí)驗(yàn)結(jié)果表明:以“事件”進(jìn)行建模是合理有效的。
2.事件定義
“事件”(Event)起源于認(rèn)知心理學(xué),認(rèn)知科學(xué)家認(rèn)為,人類主要是以“事件”為單位進(jìn)行記憶和理解現(xiàn)實(shí)世界。但是目前對(duì)“事件”還沒有統(tǒng)一的定義,不同領(lǐng)域?qū)Α笆录钡睦斫獠煌?/p>
在ACE評(píng)測(cè)會(huì)議中,“事件”[10]被描述為一個(gè)動(dòng)作的發(fā)生或狀態(tài)的變化。
美國(guó)佛羅里達(dá)州大學(xué)的Zwaan[11]將每個(gè)單句等同為一個(gè)“事件”。
本文研究的“事件”也屬于句子級(jí),但不是每個(gè)句子都是事件,只有當(dāng)一個(gè)句子含有事件特征時(shí)才構(gòu)成事件,否則為非事件。
事件抽?。‥vent Extraction)隸屬于信息抽取領(lǐng)域,主要研究如何把含有事件信息的非結(jié)構(gòu)化或半結(jié)構(gòu)化文本以結(jié)構(gòu)化的形式呈現(xiàn)出來(lái)[12]。目前,事件抽取的相關(guān)研究主要分為兩大類:模式匹配方法和機(jī)器學(xué)習(xí)方法。
模式匹配方法[13-14]盡管知識(shí)表示直觀、便于推理,但過(guò)于依賴具體領(lǐng)域,可移植性差,性價(jià)比不高。因此,基于機(jī)器學(xué)習(xí)的事件抽取方法[15-16]成為研究的主流,根據(jù)抽取模型中所采用的不同驅(qū)動(dòng)源,主要分為三類:事件元素驅(qū)動(dòng)、事件觸發(fā)詞驅(qū)動(dòng)和事件實(shí)例驅(qū)動(dòng)。然而,前兩種方法所面臨的最大問(wèn)題就是正反例不平衡和數(shù)據(jù)稀疏,影響了抽取的性能。為此,本文提出了一種基于事件實(shí)例聚類的事件抽取方法,主要思想是:首先,以單句作為事件的基本抽取單位,通過(guò)二元分類器辨析出事件句和非事件句;然后,通過(guò)對(duì)事件句聚類,得到同一主題文檔集中所包含的不同事件集合,完成事件抽取。
1.事件實(shí)例的識(shí)別
統(tǒng)計(jì)表明,新聞文本中包含大量非事件實(shí)例,降低了事件抽取的準(zhǔn)確率,因此,需要盡可能地過(guò)濾掉非事件實(shí)例。
首先對(duì)新聞文本進(jìn)行預(yù)處理;然后將每個(gè)句子作為一個(gè)候選事件,抽取出刻畫一個(gè)事件的有代表性的特征構(gòu)成候選事件實(shí)例表示;最后通過(guò)二元分類器對(duì)事件實(shí)例與非事件實(shí)例進(jìn)行自動(dòng)識(shí)別。具體步驟如下。
(1)預(yù)處理。主要包括中文分詞、詞性標(biāo)注、句子切分等,完成對(duì)自然語(yǔ)言文本的初步處理;
(2)特征提取。在步驟(1)的基礎(chǔ)上,主要選取了以下幾個(gè)事件特征:句子長(zhǎng)度、位置、詞語(yǔ)個(gè)數(shù)、命名實(shí)體個(gè)數(shù)、時(shí)間個(gè)數(shù)、數(shù)值個(gè)數(shù)、停用詞頻率、以及相應(yīng)的詞語(yǔ)等。完成特征提取后利用向量空間模型(Vector Space Model,VSM)對(duì)所有候選的事件進(jìn)行向量表示;
(3)事件識(shí)別。事件實(shí)例識(shí)別的實(shí)質(zhì)是分類問(wèn)題,由于支持向量機(jī)[17](Support Vector Machine,SVM)分類器通用性好、分類精度高、分類速度快、且分類速度與訓(xùn)練樣本個(gè)數(shù)無(wú)關(guān)。因此,本文選用SVM分類器對(duì)候選事件進(jìn)行分類,過(guò)濾非事件。
2.聚類算法
目前,聚類算法的研究相對(duì)比較成熟,傳統(tǒng)的聚類算法大體可分為兩大類[18]:層次聚類算法和非層次聚類算法。
層次聚類算法(如CURE等)應(yīng)用較廣泛,優(yōu)點(diǎn)是不需要預(yù)先設(shè)定聚類最后的目標(biāo)類別數(shù),通過(guò)停止閾值就可以確定聚類是否結(jié)束。但層次聚類也存在明顯的缺點(diǎn),在層次聚類中一個(gè)點(diǎn)一旦被歸為某類就不能再改變,不能進(jìn)行迭代修正,但在聚類的過(guò)程中有許多情況需要通過(guò)不斷的迭代使聚類中心逐漸清晰,層次聚類不能滿足這個(gè)要求,在一些情況下會(huì)導(dǎo)致錯(cuò)誤的分類。
非層次聚類算法如k-中心(CLARA等)聚類可以滿足不斷調(diào)整聚類結(jié)果的要求。但是非層次聚類算法需要預(yù)先設(shè)定目標(biāo)類別k的值,而文本的主題數(shù)與內(nèi)容有關(guān),無(wú)法預(yù)先設(shè)定,且初始質(zhì)心的選取也是隨機(jī)的,但是k值和初始質(zhì)心對(duì)聚類結(jié)果會(huì)產(chǎn)生很大的影響。
為解決單一聚類算法存在的不足,本文提出了基于層次聚類的k-中心聚類方法,具體步驟如下。
(1)完成事件識(shí)別后,對(duì)所有事件進(jìn)行層次聚類,直到任意兩個(gè)事件集合之間的相似度都小于停止閾值,層次聚類結(jié)束。聚類的結(jié)果為k個(gè)類C1,C1,…,Ck;
(2)步驟(1)完成后,得到的聚類總數(shù)作為k-中心聚類算法中的k值,從每個(gè)Ci(1≤i≤k)中任意選取一個(gè)事件作為k-中心聚類的k個(gè)初始中心點(diǎn),將余下的事件按照最相近的原則分到k個(gè)類中去,然后重新選取類的中心點(diǎn),循環(huán)進(jìn)行,當(dāng)各類別中的事件不再移動(dòng)時(shí),聚類結(jié)束。
3.基于事件實(shí)例聚類的事件抽取
基于事件實(shí)例聚類的事件抽取方法,一方面通過(guò)事件實(shí)例驅(qū)動(dòng)構(gòu)建抽取模型解決了以觸發(fā)詞驅(qū)動(dòng)所帶來(lái)的正反例失衡和數(shù)據(jù)稀疏問(wèn)題,另一方面通過(guò)引入聚類的思想突破了傳統(tǒng)方法對(duì)事件類別限制的局限性,有效提高了事件抽取的性能。本文事件抽取的流程如圖3所示。
圖3 新聞文檔事件抽取流程圖
基于事件實(shí)例聚類的事件抽取具體步驟如下。
(1)事件實(shí)例識(shí)別。通過(guò)基于SVM的事件實(shí)例的識(shí)別辨析出新聞文本中的事件實(shí)例和非事件實(shí)例,并過(guò)濾非事件實(shí)例;
(2)兩層聚類。經(jīng)過(guò)步驟(1)后獲得了文本集中的所有的事件實(shí)例,然后對(duì)所有的事件實(shí)例采用基于層次聚類的k-中心聚類算法,最終得到k個(gè)類C′1,C′2,…,C′k,其中C′1(1≤i≤k),代表了新聞文檔集中同一主題下的不同的事件集合,其中的事件具有相似的語(yǔ)義。
事件抽取完成后,得到同一主題下不同事件的集合,每個(gè)集合都是對(duì)主題某一側(cè)面的集中描述。若想生成最終的摘要還需要解決四個(gè)問(wèn)題:首先,事件集合中主旨事件的抽??;其次,主旨事件的排序;再次,摘要的平滑修飾;最后,摘要標(biāo)題的確定?;谑录槿〉恼鞒倘鐖D4所示。
圖4 基于事件抽取的摘要流程
類C′1(1≤i≤k)中的每個(gè)事件都是相關(guān)或相似的,要生成最終的摘要,首先需要挑選出每個(gè)類中的主旨事件來(lái)概括該類的中心思想,然后才能對(duì)主旨事件排序,最終生成摘要。類中事件之間的關(guān)系可以抽象出來(lái)如圖5所示。
圖5 類內(nèi)事件關(guān)系示意圖
從抽象的幾何關(guān)系來(lái)看,類內(nèi)事件之間的距離可看作事件之間邊的長(zhǎng)度。圖5所示的類中有5個(gè)事件,10條邊,顯然,最接近中心的事件所對(duì)應(yīng)的邊的總長(zhǎng)度最短。從圖5也可以看出,事件S最靠近類的中心,應(yīng)該作為這個(gè)類的主旨事件抽取出來(lái)。因此,本文認(rèn)為最靠近類中心的事件就是主旨事件,抽取算法如下。
輸入:同一主題下的不同事件集合
輸出:事件集中的主旨事件
(1)類內(nèi)事件相似度計(jì)算。設(shè)類內(nèi)任意兩個(gè)事件sI和sJ,sI中包含的詞語(yǔ)為sI1,sI2,…,sIm,sJ中包含的詞語(yǔ)為sJ1,sJ2,…,sJn,利用劉群[19]提出的利用《知網(wǎng)》[20]計(jì)算詞匯語(yǔ)義相似度的方法計(jì)算詞語(yǔ)sIi(1≤i≤m)和sJj(1≤j≤n)之間的語(yǔ)義相似度s(sIi,sJj),則事件sI和sJ之間的相似度Sim(sI,sJ)為:
其中,ai=max(s(sIi,sJ1),s(sIi,sJ2),…,s(sIi,sJn)),bj=max(s(sJj,sI1),s(sJj,sI2),…,s(sJj,sIm))。
(2)在步驟(1)的基礎(chǔ)上,通過(guò)公式:
計(jì)算類C′i中事件之間的距離;
(3)利用公式計(jì)算類內(nèi)每個(gè)事件和類內(nèi)其余事件之間的總距離,總距離最小的事件就是類內(nèi)的主旨事件。類的主旨事件計(jì)算公式為:
其中,N為類C′i中的事件數(shù)。這樣就從每個(gè)類中
抽取主旨事件作為摘要句,完成主旨事件抽取。
主旨事件排序是生成摘要的重要環(huán)節(jié)。如果順序不當(dāng),會(huì)降低摘要本身的質(zhì)量和可靠性。本文認(rèn)為主旨事件排序不能簡(jiǎn)單的依靠重要度進(jìn)行排序,應(yīng)按照事件的發(fā)展過(guò)程進(jìn)行排序,這樣才能使用戶更加清楚地了解事件的來(lái)龍去脈。因此,提出了一種基于時(shí)間的主旨事件排序方法。具體流程如下。
(1)對(duì)于可以直接比較時(shí)間的主旨事件按照時(shí)間先后排序;
(2)對(duì)于無(wú)法比較時(shí)間,但屬于同一文檔的主旨事件按照其先后順序排序;
(3)對(duì)于無(wú)法比較時(shí)間,且屬于不同文檔的兩個(gè)主旨事件,則根據(jù)它們所在文檔中的報(bào)道時(shí)間先后排序。
時(shí)間的比較算法描述如下(精確到時(shí)):
以“2010年03月29日23:18”為例,假設(shè)時(shí)間信息提取與規(guī)范化已在預(yù)處理階段完成。
(1)查找字符“年”,抽取該字符左邊部分字符串“2010”,將其轉(zhuǎn)化為整型,用“year”表示。
(2)查找字符“月”,抽取該字符左邊部分字符串“03”,將其轉(zhuǎn)化為整型,用“month”表示。
(3)查找字符“日”,抽取該字符左邊部分字符串“29”,將其轉(zhuǎn)化為整型,用“day”表示。
(4)查找字符“:”,抽取該字符左邊部分字符串“23”,將其轉(zhuǎn)化為整型,用“hour”表示。
(5)令time=y(tǒng)ear×365×24+month×30×24+day×24+hour。
由算法可以看出,時(shí)間越小,事件發(fā)生的越早,排序時(shí)應(yīng)靠前;時(shí)間越大,事件發(fā)生的越晚,排序時(shí)應(yīng)靠后。
文章中句子間具有一定上下文關(guān)系,而摘要時(shí)只是從文章中抽取部分句子,失去了其表達(dá)上下文的關(guān)系,使得摘要的連貫性難以保證,需要進(jìn)行一些平滑修飾提高摘要的連貫性和平滑性。
(1)標(biāo)點(diǎn)符號(hào)平滑修飾。一些跨句需匹配的標(biāo)點(diǎn)符號(hào)(如引號(hào)等),可能由于切分句子的原因被分離開,在摘要句子中發(fā)生失配。在平滑處理時(shí),可以把摘要句中失配的標(biāo)點(diǎn)符號(hào)刪除或補(bǔ)上。
(2)刪除摘要句中“無(wú)用信息”。摘要句集合中常包含一些無(wú)用信息,如句首關(guān)系詞、轉(zhuǎn)折詞等。句首關(guān)系連詞包括“另外”、“因此”等連詞,如果出現(xiàn)在摘要句句首,則顯得非常突兀,句子表達(dá)不連貫,需要?jiǎng)h除。
(3)指示代詞消解。指示代詞的消解可以使摘要的結(jié)果更通順流暢。所謂指示代詞包括人稱代詞(你、我、他)、一般代詞(前者、后者)等。
本文采用的方法是,如果一個(gè)被抽取的摘要句前面n個(gè)詞中含有這些代詞,則將該句的前一個(gè)句子也作為摘要句,依次類推。本文通過(guò)實(shí)驗(yàn)n取7。
經(jīng)過(guò)以上的后處理步驟,基本達(dá)到了摘要潤(rùn)色的目的,增加了可讀性。
標(biāo)題是摘要的重要組成部分,好的標(biāo)題不僅能在第一時(shí)間吸引住人們的目光,而且能夠概括文檔的主旨,使人們一目了然。本文將多文檔集合中核心文檔的標(biāo)題抽取出來(lái)作為摘要標(biāo)題,算法如下。
(1)文本特征提取。對(duì)文本進(jìn)行分詞后,由于低頻詞和停用詞所含有的信息量很小,故對(duì)已經(jīng)切分的詞語(yǔ)過(guò)濾掉這些詞后所得的詞稱為文本的有效詞,這些詞都在一定程度上反映了原文的特征。假設(shè)一篇文本中共有n個(gè)有效詞,分別為t1,t2,…,tn。通過(guò)tf*idf對(duì)它們進(jìn)行權(quán)重計(jì)算,其權(quán)值Wk(1≤k≤n)的計(jì)算公式如下:
其中,tfk為tk的絕對(duì)詞頻,N為文檔總數(shù),nk為包含tk的文檔數(shù)。
(2)相似度計(jì)算。采用基于向量空間模型(Vector Space Model,VSM)統(tǒng)計(jì)的方法計(jì)算同一主題下N篇文檔集中任意兩篇文檔di=(Wi1,Wi2,…,Win)和dj=(Wj1,Wj2,…,Wjn)之間的相似度,計(jì)算公式如下:
其中,0<i,j≤N,O為向量空間的原點(diǎn)。
(3)對(duì)文檔集合中的每一篇文檔di求其與當(dāng)前文檔集合中所有其他文檔之間相似度的和Sum,計(jì)算公式如下:
其中,i≠j且0<i,j≤N。
(4)對(duì)文檔集合中每一篇文檔求其相似度之和的平均值average(Sum),并求
其中,average(Sumi)的計(jì)算公式如下:
(5)第i*篇文檔di*被定義為當(dāng)前文檔集的核心文檔,選取該文檔的標(biāo)題作為摘要的標(biāo)題。
本文實(shí)驗(yàn)數(shù)據(jù)是從新浪、網(wǎng)易和搜狐等實(shí)際網(wǎng)絡(luò)環(huán)境中采集的3個(gè)主題相關(guān)的3組語(yǔ)料,所屬內(nèi)容均為2010年間國(guó)內(nèi)、國(guó)際相關(guān)話題的網(wǎng)絡(luò)新聞報(bào)道。通過(guò)網(wǎng)頁(yè)分析去除廣告鏈接等無(wú)關(guān)內(nèi)容,只保留標(biāo)題、報(bào)道時(shí)間和正文內(nèi)容,并經(jīng)去重和規(guī)范化處理轉(zhuǎn)化為同一文本格式(*.txt)。
本文所選取的語(yǔ)料具有代表性和區(qū)分性,既有時(shí)政新聞,又有社會(huì)新聞;既有國(guó)際新聞,又有國(guó)內(nèi)新聞;既有突發(fā)事件,又有熱點(diǎn)問(wèn)題。語(yǔ)料的具體統(tǒng)計(jì)信息如表1所示。
目前,自動(dòng)摘要的評(píng)價(jià)方法大致分為兩大類:內(nèi)部評(píng)價(jià)(Intrinsic)和外部評(píng)價(jià)(Extrinsic)。
表1 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)結(jié)果/個(gè)
內(nèi)部評(píng)價(jià)方法通過(guò)直接分析摘要的質(zhì)量來(lái)評(píng)價(jià)摘要系統(tǒng),主要采用準(zhǔn)確率、召回率等性能指標(biāo),方法簡(jiǎn)單、容易實(shí)現(xiàn),但主觀性太強(qiáng)。
外部評(píng)價(jià)方法是一種間接方法,使用自動(dòng)摘要系統(tǒng)生成的摘要去完成某個(gè)外部的任務(wù),以任務(wù)完成的質(zhì)量來(lái)評(píng)價(jià)摘要的質(zhì)量,評(píng)價(jià)方法較為客觀,適用于大規(guī)模地對(duì)多個(gè)摘要系統(tǒng)進(jìn)行綜合評(píng)價(jià),但需要設(shè)計(jì)具體的評(píng)價(jià)任務(wù),很耗時(shí)間和人力,且每次評(píng)價(jià)只針對(duì)一個(gè)特定的任務(wù),有一定局限性。
可見,兩種評(píng)價(jià)方法都有其優(yōu)勢(shì)和劣勢(shì),因此,本文分別采用內(nèi)部評(píng)價(jià)和外部評(píng)價(jià)進(jìn)行討論。1.內(nèi)部評(píng)價(jià)
自動(dòng)摘要的本質(zhì)是信息的抽取和壓縮,因此本文借鑒信息抽取中的評(píng)價(jià)指標(biāo),主要采用召回率R(Recall)、準(zhǔn)確率P(Precision)和流利度Flu(Fluency)三個(gè)指標(biāo)對(duì)自動(dòng)摘要系統(tǒng)進(jìn)行內(nèi)部評(píng)價(jià)。各評(píng)價(jià)指標(biāo)如下:
· 摘要召回率反映摘要對(duì)原文主題信息的覆蓋程度,是對(duì)摘要質(zhì)量的一個(gè)重要評(píng)價(jià)標(biāo)準(zhǔn)。摘要召回率R定義為:
·摘要準(zhǔn)確率反映摘要表現(xiàn)原文主題信息的準(zhǔn)確程度。摘要準(zhǔn)確率P定義為:
·摘要流利度反映摘要流暢性和可讀性。在本文的評(píng)測(cè)中,通過(guò)比較系統(tǒng)摘要與人工摘要相匹配的句子在順序上是否一致。摘要流利度Flu定義為:
其中,A為人工標(biāo)準(zhǔn)摘要的語(yǔ)句集合,B為系統(tǒng)產(chǎn)生摘要的語(yǔ)句集合,C為系統(tǒng)摘要與人工摘要順序一致且最長(zhǎng)匹配的語(yǔ)句數(shù)。
在綜合評(píng)測(cè)系統(tǒng)性能時(shí),為了一目了然,應(yīng)同時(shí)考慮R、P和Flu多個(gè)指標(biāo),本文利用多指標(biāo)綜合評(píng)價(jià)方法中的線性加權(quán)綜合法進(jìn)行綜合評(píng)價(jià)。所謂線性加權(quán)綜合法是指應(yīng)用線性模型來(lái)進(jìn)行綜合評(píng)價(jià)。本文綜合評(píng)價(jià)公式定義為:
其中,Y為系統(tǒng)的綜合評(píng)價(jià)值,α,β和γ分別為指標(biāo)的相應(yīng)權(quán)重,且α+β+γ=1。
權(quán)重α,β和γ的確定方法有很多種,本文采用較為簡(jiǎn)單和成熟的專家咨詢權(quán)重法。按照指標(biāo)對(duì)用戶重要程度的大小,主觀規(guī)定了各指標(biāo)的權(quán)重大小,這里α=0.4,β=0.4,γ=0.2。
此外,為了評(píng)價(jià)不同摘要方法對(duì)不同主題語(yǔ)料的影響,本文引入了指標(biāo)算術(shù)平均值(Arithmetic Mean),公式定義如下:
其中,ˉR、ˉP和ˉFlu分別為同一種摘要方法不同語(yǔ)料下的召回率、準(zhǔn)確率和流利度的均值,n為同一種摘要方法下主題語(yǔ)料的數(shù)目,本文n=3。
(1)實(shí)驗(yàn)結(jié)果
為了驗(yàn)證本文自動(dòng)摘要方法的有效性,依據(jù)當(dāng)前比較主流的多文檔自動(dòng)摘要研究方法[4-7],建立了兩個(gè)自動(dòng)摘要系統(tǒng)與本文方法進(jìn)行對(duì)比實(shí)驗(yàn)。
系統(tǒng)一:首先,將同一主題下的文檔集合按照段落為單位進(jìn)行物理上的劃分;然后,計(jì)算自然段之間的相似度,高度相似的不同文檔段落聚集到不同的類中;最后,從每個(gè)段落類中選擇代表段落生成摘要。
系統(tǒng)二:首先,將文檔集合按照句子為單位進(jìn)行物理劃分;然后,計(jì)算句子之間的相似度,高度相似的不同句子聚集到不同的類中;最后,從每個(gè)句子類中選擇代表句生成摘要。
實(shí)驗(yàn)中,先用本文方法對(duì)每個(gè)實(shí)驗(yàn)語(yǔ)料生成一個(gè)摘要,然后人工分別對(duì)這三個(gè)主題做出標(biāo)準(zhǔn)摘要,將本文生成的摘要以及系統(tǒng)一、二生成的摘要分別與人工標(biāo)準(zhǔn)摘要對(duì)比,計(jì)算上面三個(gè)指標(biāo)的值。
本文硬件實(shí)驗(yàn)環(huán)境為Intel(R)Core(TM)2 DUO CPU E7400 @ 2.80GHz,2GB 內(nèi) 存,Microsoft Windows XP Professional(SP3)操作系統(tǒng),開發(fā)工具為Visual C++6.0。實(shí)驗(yàn)對(duì)比結(jié)果如表2所示。
表2 不同主題語(yǔ)料下不同方法實(shí)驗(yàn)對(duì)比結(jié)果/%
由表2可見,相同語(yǔ)料下本文方法生成摘要的綜合評(píng)價(jià)值均高于系統(tǒng)一和系統(tǒng)二的,說(shuō)明本文方法生成的摘要很好地兼顧了召回率、準(zhǔn)確率和流利度;同時(shí),本文方法生成摘要的召回率、準(zhǔn)確率和流利度的算術(shù)平均值整體上也優(yōu)于系統(tǒng)一和系統(tǒng)二的,說(shuō)明本文方法生成的摘要很好地兼顧了不同種類的語(yǔ)料??梢姡摲椒ú粌H適用范圍廣,而且具有一定的魯棒性,生成的摘要具有較高的質(zhì)量。
系統(tǒng)一以自然段為摘要單元進(jìn)行聚類,可以保留句子和句子之間的關(guān)聯(lián)關(guān)系,因而流利度較好,但是包含了很多的冗余信息,嚴(yán)重影響了準(zhǔn)確率,且摘要的長(zhǎng)度過(guò)長(zhǎng)。因此,多文檔摘要中以段落為摘要單元的研究已沒有更多的余地。
目前的研究大部分以句子作為基本的摘要單元,句子是一個(gè)相對(duì)較小的摘要單元,它只是一個(gè)詞序列,不包含更多詞頻等統(tǒng)計(jì)信息。從表2來(lái)看,系統(tǒng)二中以句子作為摘要基本單位也不是最理想的;此外,當(dāng)考慮所有句子時(shí),不僅帶來(lái)了很多的“噪聲”,且時(shí)間復(fù)雜度將呈指數(shù)級(jí)增長(zhǎng)。
本文以“事件”作為摘要的基本單元,從總的實(shí)驗(yàn)結(jié)果來(lái)看,所生成摘要的效果達(dá)到了預(yù)定的實(shí)驗(yàn)?zāi)繕?biāo),可以被用戶接受。
實(shí)驗(yàn)中還發(fā)現(xiàn),所選摘要單元越小,包含的信息越豐富和細(xì)膩,但一方面會(huì)失去許多關(guān)聯(lián)關(guān)系,影響對(duì)文本集合中信息的正確判斷,另一方面對(duì)自然語(yǔ)言生成技術(shù)要求很高,很難付諸實(shí)用;而摘要單元過(guò)大又會(huì)帶來(lái)許多冗余信息,降低聚合的程度。由表2不難看出,本文較好地兼顧了上述兩個(gè)問(wèn)題,所選摘要單元的平均長(zhǎng)度——“事件”介于句子的和段落的之間,生成的摘要不僅沒有失去關(guān)聯(lián)關(guān)系,而且進(jìn)一步減小了冗余,是一種有效的多文檔自動(dòng)摘要方法。
(2)實(shí)驗(yàn)分析
分析“莫斯科地鐵爆炸”主題中的文章可知,每篇新聞的重點(diǎn)比較明確,有關(guān)于爆炸現(xiàn)場(chǎng)、救援情況、傷亡情況、原因調(diào)查、采取措施、善后工作以及各方反應(yīng)等,因此,聚類結(jié)果較準(zhǔn)確,生成的摘要效果很好。
分析“錢偉長(zhǎng)逝世”這個(gè)主題中的文章可知,文章中的新聞時(shí)間差不多是相同的,但每個(gè)新聞文本的內(nèi)容在時(shí)間上跨度很大,包括對(duì)錢偉長(zhǎng)生平的紀(jì)事、錢偉長(zhǎng)的貢獻(xiàn)、逝世的時(shí)間、地點(diǎn)以及各界的追思等的描述,且不同報(bào)道從不同側(cè)面對(duì)其生平、貢獻(xiàn)等進(jìn)行描述,造成聚類結(jié)果不準(zhǔn)確,同時(shí)嚴(yán)重影響了摘要的流利度。
分析“日本民主黨選舉”主題中的文章可知,主題中的新聞分為四個(gè)階段——選舉前瞻、選舉結(jié)果、分析評(píng)論及政壇影響,每個(gè)階段有6-8篇新聞,但都是圍繞選舉這個(gè)主題來(lái)描述的,不同階段之間的文檔有交疊,而且同一個(gè)階段的文檔往往從不同的角度進(jìn)行敘述,中心不是很明確。因此,在對(duì)此主題下所有的事件聚類時(shí),結(jié)果的準(zhǔn)確性不能得到很好的保證,同時(shí)也造成信息的召回率偏低;由于根據(jù)時(shí)間對(duì)主旨事件進(jìn)行排序,從而使得摘要的流利度還比較好。
分析實(shí)驗(yàn)中影響自動(dòng)摘要質(zhì)量的因素主要有以下兩點(diǎn)。
a、聚類數(shù)目確定
本文的實(shí)驗(yàn)中,沒有硬性規(guī)定摘要的壓縮比,而是根據(jù)聚類數(shù)目確定摘要的長(zhǎng)度。通過(guò)實(shí)驗(yàn)注意到聚類數(shù)目與文本的描述內(nèi)容有關(guān),如果一個(gè)文本內(nèi)容很廣,即使文本句子數(shù)不多也具有較多的聚類數(shù)目,但這種情況往往出現(xiàn)單個(gè)樣本的類,影響摘要效果。因此,如何根據(jù)文本自身內(nèi)容自適應(yīng)確定類別數(shù)并完成聚類是今后的努力方向。
b、主旨事件抽取
聚類結(jié)束后,每個(gè)類成為一個(gè)事件集。在每個(gè)事件集中,包含的事件都是相似的。它們之間有很多信息可以互補(bǔ),若只是簡(jiǎn)單地從這些相似的事件中選出主旨事件作為這類的代表,那么有些信息將會(huì)丟失。較好的一種方法是以其中包含信息最多的事件作為主旨事件,將其它相似的事件中合適的信息添加進(jìn)來(lái),保持信息的豐滿,同時(shí)也不影響摘要的連貫性,這就涉及到事件句的壓縮和合并以及語(yǔ)義處理等深層語(yǔ)言處理技術(shù),也是下一步要研究的主要內(nèi)容。
2.外部評(píng)價(jià)
本文采用基于問(wèn)答任務(wù)(Question Answering,Q&A)進(jìn)行外部評(píng)價(jià),通過(guò)提供一定數(shù)量的源于語(yǔ)料1、2、3的問(wèn)題集及相應(yīng)的標(biāo)準(zhǔn)答案,讓不同的評(píng)測(cè)員分別閱讀原文、閱讀由系統(tǒng)一、二生成的摘要以及本文方法產(chǎn)生的摘要,然后對(duì)比其回答問(wèn)題的平均時(shí)間和準(zhǔn)確率。不同測(cè)試環(huán)境下實(shí)驗(yàn)對(duì)比結(jié)果如表3所示。
表3 基于Q&A外部評(píng)價(jià)實(shí)驗(yàn)對(duì)比結(jié)果
由表3可見,閱讀原文所用的平均時(shí)間最長(zhǎng),回答問(wèn)題的準(zhǔn)確率也最高;閱讀系統(tǒng)一產(chǎn)生的摘要準(zhǔn)確率有所降低,但所用時(shí)間縮短了近三分之二;閱讀系統(tǒng)二生成的摘要,雖然所用的平均時(shí)間是最短的,但準(zhǔn)確率也是最差的。相對(duì)而言,對(duì)于本文方法產(chǎn)生的摘要能夠更加全面地覆蓋文章的主題信息,并很好地兼顧回答問(wèn)題的時(shí)間和準(zhǔn)確率,從而在回答問(wèn)題的準(zhǔn)確率與閱讀原文的準(zhǔn)確率相差不大的情況下,大大節(jié)省用戶的瀏覽時(shí)間,提高了獲取信息的速率和效率。
目前,信息社會(huì)對(duì)能夠有效濃縮文本信息的自動(dòng)摘要技術(shù)有著迫切的需求,它能對(duì)自然語(yǔ)言文本進(jìn)行深層次知識(shí)的挖掘,通過(guò)閱讀它可以在短時(shí)間內(nèi)了解事件的發(fā)生、發(fā)展和結(jié)束的全過(guò)程,以及對(duì)人們和社會(huì)造成的影響,同時(shí)有效地解決了數(shù)據(jù)的冗余問(wèn)題,具有重要的現(xiàn)實(shí)意義。
針對(duì)當(dāng)前自動(dòng)摘要方法的不足,提出一種基于事件抽取的多文檔自動(dòng)摘要方法,不僅進(jìn)一步減小了流行方法中的冗余問(wèn)題,而且很好地解決了傳統(tǒng)方法中由于給定壓縮比造成摘要有時(shí)由于字?jǐn)?shù)限制表達(dá)不夠全面的問(wèn)題,實(shí)現(xiàn)了摘要長(zhǎng)度隨文檔內(nèi)容自動(dòng)確定。下一步研究的重點(diǎn)將是探索跨句子級(jí)事件抽取方法,構(gòu)建完善的事件知識(shí)表示模型并應(yīng)用于多文檔摘要中,從而生成更高質(zhì)量的新聞?wù)?/p>
致謝 作者要向《知網(wǎng)》的發(fā)明人董振東先生和董強(qiáng)先生表示感謝,他們的工作是本文的基礎(chǔ)。另外,本文在文本預(yù)處理中采用了中科院計(jì)算所漢語(yǔ)詞法分析系統(tǒng)ICTCLAS 3.0,這里一并表示感謝!
[1]秦兵,劉挺,李生.多文檔自動(dòng)文摘綜述[J].中文信息學(xué)報(bào),2005,19(6):13-20.
[2]Luhn H P.The Automatic Creation of Literature Abstract[J]. IBM Journal of Research and Development,1958,2(2):159-165.
[3]宋銳,林鴻飛.基于文檔語(yǔ)義圖的中文多文檔摘要生成機(jī)制[J].中文信息學(xué)報(bào),2009,23(3):110-115.
[4]Jiang Changjin,Peng Hong,Ma Qianli,et al.Automatic Summarization for Chinese Text Based on Combined Words Recognition and Paragraph Clustering[C]//Proceedings of 2010 3rd International Symposium on Intelligent Information Technology and Security Informatics(IITSI),2010:591-594.
[5]Zhang Peiying, Li Cunhe. Automatic text summarization based on sentences clustering and extraction[C]//Proceedings of 2nd IEEE International Conference on Computer Science and Information Technology(ICCSIT),2009:167-170.
[6]Naomi Daniel,Dragomir Redav,Timothy Allison.Sub-event based multi-document summarization[C]//Proceedings of HLT-NAACL workshop on text summarization,2003:9-16.
[7]劉茂福,李文捷,姬東鴻.基于事件項(xiàng)語(yǔ)義圖聚類的多文檔摘要方法[J].中文信息學(xué)報(bào),2010,24(5):77-84.
[8]中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[OL].[2010-08-03].http://www.cnnic.net.cn/uploadfiles/pdf/2010/7/15/100708.pdf.
[9]司聯(lián)合.《概念層次網(wǎng)絡(luò)理論》(HNC)述評(píng)[J].語(yǔ)言科學(xué),2003,2(4):101-108.
[10]ACE (Automatic Content Extraction) Chinese Annotation Guidelines for Events[M].National Institute of Standards and Technology,2005.
[11]Zwaan R A,Radvansky G A.Situation models in language comprehension and memory [J].Psychological Bulletin,1998,123(2):162-185.
[12]趙妍妍,秦兵,車萬(wàn)翔等.中文事件抽取技術(shù)研究[J].中文信息學(xué)報(bào),2008,22(1):3-8.
[13]梁晗,陳群秀,吳平博.基于事件框架的信息抽取系統(tǒng)[J].中文信息學(xué)報(bào),2006,20(2):40-46.
[14]馮禮.基于事件框架的突發(fā)事件信息抽?。跠].上海:上海交通大學(xué),2008.
[15]David Ahn.The stages of event extraction[C]//Proceedings of the Workshop on Annotations and Reasoning about Time and Events,Sydney,2006:1-8.
[16]許紅磊,陳錦秀,周昌樂(lè)等.自動(dòng)識(shí)別事件類別的中文事件抽取技術(shù)研究[J].心智與計(jì)算,2010,4(1):34-44.
[17]Vapnik V.Nature of Statistical Learning Theory[M].New York:Springer Press,2000.
[18]趙世奇,劉挺,李生.一種基于主題的文本聚類方法[J].中文信息學(xué)報(bào),2007,21(2):58-62.
[19]劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度的計(jì)算[J].Computational Linguistics and Chinese Language Processing,2002,7(2):59-76.
[20]董振東,董強(qiáng).知網(wǎng)[OL].[2010-06-08].http://www.keenage.com.