劉茂福,余 博,胡慧君
(武漢科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,湖北 武漢430065)
在互聯(lián)網(wǎng)搜索應(yīng)用中,搜索引擎按照網(wǎng)頁內(nèi)容與用戶查詢主題的相關(guān)度線性排序并返回結(jié)果,往往會提供數(shù)量龐大、信息重復(fù)的多個頁面集給用戶,有時也會在新聞頁面的末尾處提供多篇相關(guān)報道的鏈接。為了方便用戶從海量信息中準(zhǔn)確快速地獲取用戶想要的信息,針對返回的反映不同主題的頁面集,可以利用多文檔自動摘要技術(shù),為每個包含多個相關(guān)文檔的頁面集自動生成一篇摘要并提供給用戶,幫助用戶進(jìn)一步聚焦到真正需要的文檔集合上。對生物學(xué)文獻(xiàn)統(tǒng)計后發(fā)現(xiàn),對文本進(jìn)行人工標(biāo)引時,42.7%的主題詞從原文中產(chǎn)生,47%的主題詞可以由原文中詞語的同義詞得到。根據(jù)這種分布規(guī)律,可以從文本中直接或間接抽取語句生成摘要[1],因而出現(xiàn)了抽取式多文檔自動摘要技術(shù)。
在對多文檔生成摘要的過程中,相關(guān)聯(lián)的文檔因共同的關(guān)鍵詞聯(lián)系在一起,若能提供有關(guān)這些關(guān)鍵詞的背景信息,對準(zhǔn)確理解多文檔的內(nèi)容,提高摘要的質(zhì)量將會提供很大幫助。例如,現(xiàn)在有很多關(guān)于中國政府在利比亞動亂沖突中撤僑行動的新聞頁面,用戶如果要為這些新聞頁面所形成的文檔集生成摘要,則可以利用利比亞沖突提供的背景信息對頁面內(nèi)容進(jìn)行過濾,這樣生成的摘要中將會只保留北非利比亞的撤僑行動,而將日本福島核泄露事故中的撤僑行動內(nèi)容過濾掉,這樣生成的摘要內(nèi)容就會更精確。
維基百科是目前世界上最大的面向互聯(lián)網(wǎng)開放式的多語種百科全書,它的基本組成單元是“詞條”,每一個詞條都對應(yīng)一個維基頁面。根據(jù)BBC報道,通過測驗證實,維基百科在科技方面與《大英百科全書》一樣準(zhǔn)確[2]。因此,本文利用維基百科作為提供背景信息的外部資源。對于給定的關(guān)鍵詞搜索得到其對應(yīng)的維基百科頁面,選取與文檔集主題關(guān)聯(lián)度高的那部分內(nèi)容,通過與文檔集比對來縮小摘要句的選取范圍,并用這部分內(nèi)容對文檔集里的句子進(jìn)行過濾,提高為主題生成的最終摘要的精確度。
本系統(tǒng)模型采用多文檔自動抽取式摘要方法,將文本看作句子的線性組合,將句子看作詞的線性組合[3]。計算句子TF*IDF、句子位置、句子與主題相似度以及句子長度四個特征項的值,將各特征項權(quán)值按照組合優(yōu)化后得到的結(jié)果對句子排序,用搜索出的維基百科內(nèi)容對句子做相似度計算并降序排列,然后抽取摘要句。
系統(tǒng)包括4個模塊,即文檔預(yù)處理、獨立特征計算和組合優(yōu)化、基于維基百科的摘要句過濾和摘要生成。如圖1所示。
文檔預(yù)處理的主要任務(wù)是基于分詞詞典與停用詞表,切分文本中的詞語并標(biāo)注詞性,進(jìn)而統(tǒng)計詞頻并記錄位置等詞的基本信息。本系統(tǒng)將語料中每一個文檔分割為句子單元,在預(yù)處理過程中利用GATE作為分詞工具[4]。GATE是一個應(yīng)用廣泛的信息抽取的開放型基礎(chǔ)架構(gòu),為用戶提供圖形化的開發(fā)環(huán)境,被許多自然語言處理項目尤其是信息抽取研究項目所使用。
將語料文檔用GATE分詞、提取文檔中每個單詞的詞干、標(biāo)注每個詞的詞性以及停用詞過濾,然后計算每個詞的TF*IDF值,生成預(yù)處理文件。
根據(jù)預(yù)處理的結(jié)果,計算每個句子的四個特征項,即句子TF*IDF、位置、與主題相似度以及句子長度。
(1)句子 TF*IDF
TF*IDF是短語在文檔中出現(xiàn)的頻率和在全體語料中出現(xiàn)的文檔頻率的倒數(shù)之積[5]。也就是說,在本文檔中出現(xiàn)比較頻繁而在其他文檔中不常出現(xiàn)的術(shù)語具有更高的信息量。該特征表示若句子包含的文檔中重要的單詞越多,該項得分越高。該項得分為句子中除去停頓詞后所有單詞的TF*IDF值的總和。
其中,Seni,k表示第 k 個文檔中第 i個句子,w 表示 Seni,k中的非停頓詞。 STi,k表示 Seni,k的 TF*IDF 特征項的得分。TDoci,k、TTopici,k分別表示單詞 w 在文檔中的 TF*IDF得分以及在主題信息中的TF*IDF得分[6]。
(2)句子位置
系統(tǒng)將文檔內(nèi)容看作是句子的線性組合,每篇文檔中第一句話是最重要的,其他句子重要性按位置依次向后遞減。
其 中,Pi,k表 示 Seni,k的 位 置 特 征項的得分;n表示第k個文檔的句子總數(shù)。
(3)句子與主題相似度
主題是文檔集中討論的中心內(nèi)容,每個句子與主題相似度越大則表明該句包含的重要信息越多,句子就越重要。
其中,SSenTopici,k表示句子與主題標(biāo)題句直接相似度得分,SDoc-Topici,k表示句子與主題標(biāo)題句間接相似度[7]。
(4)句子長度采用正態(tài)分布模型計算該特征項的得分。句子的長度越接近全部文檔句子的平均長度,該特征的得分就越高。句子的平均長度是同一主題下的所有文檔中的單詞的總和除以句子總和的值。因此該特征項的得分為:
其中,μ為同一文檔集中所有句子的平均長度;x為Seni,k中包含單詞的個數(shù)。
本文中給每個特征項設(shè)置一定的權(quán)重,每個特征項的最后得分為該特征項的得分乘以權(quán)重,句子的最終得分為每個特征項的最后得分的總和[8]。
由于文檔集A和文檔集B都是圍繞相同的主題展開,利用維基百科可以獲得共同主題的維基頁面內(nèi)容。一般維基頁面會在頁面頂部對詞條給出一個綜述性介紹。本系統(tǒng)把維基百科的詞條綜述性介紹看成是維基百科詞條頁面自身的一個“特殊”的單文檔摘要,利用這個“特殊摘要”對抽取得到的摘要句進(jìn)行句子過濾計算所生成的多文檔摘要中的句子和特殊摘要中的句子的相關(guān)度,將相關(guān)度低于預(yù)期閾值的句子刪除掉;最后對剩余摘要句進(jìn)行處理后生成最終摘要。
以TAC2009提供的文檔集D0901A為例,其標(biāo)題是“Indian Pakistan conflict”,其文檔集中每篇文檔的內(nèi)容都緊緊圍繞著“印巴克什米爾沖突”這一主題展開。因此,在維基百科中可以得到“Kashmir conflict”詞條頁面,其中,頁面頂部是對克什米爾沖突以及雙方各自立場的簡要介紹,下面分別按照沖突的時間線索、沖突的背后原因、當(dāng)?shù)厝藱?quán)狀況和最新進(jìn)展等四大方面做了詳細(xì)描述。
在利用維基百科生成摘要時,首先從44個不同主題的文檔集里找出合適的關(guān)鍵詞或短語。本文選取的都是文檔集中自帶主題的關(guān)鍵詞,輸入到英文版的維基百科中搜索得到維基頁面;在每個詞條頁面中選取頁面頂部概述部分的前幾小段內(nèi)容作為詞條的背景信息,修改成和語料相同的XML格式,保存為后續(xù)工作中將會使用到的集合W。
生成摘要時,將語料集A輸入到摘要系統(tǒng)計算出語料集A中每個句子4個特征值的得分,根據(jù)特征項組合優(yōu)化的結(jié)果對句子降序排列得到摘要句的集合A′,再將A′中每個句子與由維基百科生成的集合W中每一個句子做相似度計算,按照相似度值降序排列,根據(jù)摘要的長度限制按照一定的順序選取句子組成摘要。
得到摘要后,還要對其進(jìn)行后處理。簡單的摘要后處理做法是遵循語法和習(xí)慣用語所生成的一些規(guī)則。本文共制定了11條規(guī)則來消除非限制性定語從句、時間短語從句等非重要信息,并使用正則表達(dá)式表示這些規(guī)則。最后從后處理得到的摘要句集合中根據(jù)摘要長度要求選取句子組合成正式摘要。
本文使用的語料來源于 TAC2009,TAC2009共提供了44個不同主題的新聞文檔集,每個主題的文檔集都分為A和B兩個集合,每個集合都包含10篇從全球四大新聞社選取的新聞材料。與此同時,TAC還組織了8位專家為44個語料集的每一個主題人工寫了8篇摘要,并從中選取4篇摘要作為TAC人工評測對比的模板。
在44個主題的文檔集中,并不是所有的主題都能在維基百科中定位到一個具體的頁面,有一些由于指向模糊,在維基百科中無法提供有效參考頁面。在所有的44個主題中,最終定位出40個主題的詞條。正是由于維基百科極廣泛的覆蓋面,保證了90%的主題可以從維基百科中得到背景信息。對于與著名人物相關(guān)的主題,例如“美國前副總統(tǒng)切尼槍擊誤傷事件”和“邁克爾杰克遜褻童案”,或者生活類主題,例如塑料垃圾袋、太陽能、處方止痛藥等,都很容易搜索出具體頁面。而在事件類的新聞中,如果不是轟動一時的國際事件,例如“泰科(Tyco)前CEO科茲洛夫詐騙案”,則很難從維基百科中得到詳細(xì)有效的信息。
而在能提供出具體頁面的40個主題中,有少部分需要在維基百科中轉(zhuǎn)義成另外的詞條,例如,“世貿(mào)大廈紀(jì)念館”應(yīng)看做“911國家紀(jì)念和博物館”的轉(zhuǎn)義詞條,“印航炸彈案嫌犯審判”在維基百科中則應(yīng)該轉(zhuǎn)義為“Air India Flight 182”詞條。
本文使用在自動摘要領(lǐng)域內(nèi)廣泛應(yīng)用的ROUGE(Recall-Oriented Understudy for Gisting Evaluation)作為自動評測工具。ROUGE是一種基于要點召回率的評測方法,它通過考察專家摘要與機器摘要中相同評價單元(如n-gram、詞序、詞對等)的重疊數(shù)量來達(dá)到對文檔質(zhì)量進(jìn)行自動評測的目的。TAC2009中采用的評價指標(biāo)有ROUGE-2和ROUGE-SU4。表1給出了使用和沒使用維基百科的兩組自動文摘在ROUGE-2和ROUGE-SU4下的得分,以及兩組自動文摘在人工評測下的得分。
從表1可以看出,不論是更新前的摘要還是更新后的摘要,在ROUGE-2和ROUGE-SU4兩項評測中,使用了維基百科的自動摘要得分均高于沒有使用維基百科的自動摘要,而且提高的幅度比較明顯。相比ROUGESU4指標(biāo)得分,ROUGE-2中的得分提高幅度更大一些。原因可能是44個主題的文檔集中的絕大部分都能在維基百科中找到緊密關(guān)聯(lián)的背景信息,這歸功于維基百科越來越龐大的詞匯量和中立客觀的態(tài)度。
在人工評測部分,使用了維基百科的結(jié)果比沒有使用維基百科的結(jié)果也有較大幅度提高。這說明引入維基百科的想法是正確的,引入這種外部資源確實能提高摘要內(nèi)容和主題的關(guān)聯(lián)度。但是,維基百科在提高摘要質(zhì)量的同時,選取錯誤的維基頁面內(nèi)容也會對結(jié)果產(chǎn)生負(fù)面的影響。
表1 摘要在ROUGE評測和TAC人工評測中的對比結(jié)果
仍然以“印巴沖突”為例,文檔集中的內(nèi)容圍繞著在印巴沖突中雙方對和平所作的努力,即“Efforts made toward peace in the India-Pakistan conflict”。而在維基頁面中將之定位在頁首第一部分,即“武裝沖突”的敘述,卻忽視“和平”這個最主要的關(guān)鍵詞,因而適得其反。在維基百科的“Kashmir conflict”詞條頁面中,實際上可以在該頁面中的“Recent developments”這一部分下找到“Efforts to end the crisis”這一符合語料要求的內(nèi)容。由此可以看出,在維基百科中準(zhǔn)確定位相關(guān)主題的內(nèi)容是很重要的,這也是需要進(jìn)一步研究的環(huán)節(jié)。
本文首先提出了一種通過引入維基百科作為外部資源來提高自動摘要質(zhì)量的方法。描述了本自動文摘系統(tǒng)的4個模塊,即文檔預(yù)處理、獨立特征計算和組合優(yōu)化、基于維基百科的摘要句過濾以及摘要生成。作為對比,本文使用本系統(tǒng)對同一批語料在引入和不引入維基百科的條件下生成摘要,最后用ROUGE工具進(jìn)行評測。實驗結(jié)果證明,使用了維基百科的結(jié)果要明顯優(yōu)于沒有使用維基百科的結(jié)果,這說明在自動摘要系統(tǒng)中適當(dāng)?shù)匾胪獠恐R庫(例如維基百科或者百度百科)可以有效提高生成摘要的質(zhì)量。
[1]LIN C Y.ROUGE:a package for automatic evaluation of summaries[C].In Proceedings of the Workshop on Text Summarization,Barcelona.ACL,2004.
[2]周慶山,王京山.維基百科信息自組織模式探析[J].情報資料工作,2007(02):29-32.
[3]SRAVANTHI M,CHOWDARY C R,KUMAR P S.QueSTS:a query specific text summarization system[C].In Proceedings of the 21st International FLAIRS Conference,F(xiàn)lorida,USA.AAAI Press,2008.
[4]MIHALCEA R,TARAU P.TextRank:bringing order into texts[C].Proceedings of EMNLP.Barcelona,Spain:Association for Computational Linguistics,2004.
[5]郭燕慧,鐘義信,馬志勇,等.自動文摘綜述[J].情報學(xué)報,2005,21(5):582-591.
[6]徐超,王萌,何婷婷,等.基于局部主題關(guān)鍵句抽取的自動文摘方法[J].計算機工程,2008,34(22):49-51.