張筱丹, 胡學鋼
(1.合肥工業(yè)大學計算機與信息學院,安徽合肥 230009;2.安徽農(nóng)業(yè)大學信息與計算機學院,安徽合肥 230036)
隨著信息技術的飛速發(fā)展和互聯(lián)網(wǎng)的普及,文本資源呈現(xiàn)出幾何級的增長。但是,網(wǎng)絡上的信息量大,更新速度快,用戶很難迅速地找出目標信息。自動文摘是繼信息檢索之后信息或知識獲取的一個重要步驟,對高質量的文檔文摘十分重要[1]。自動文摘是利用計算機從文章中自動提取內(nèi)容生成摘要的方法,其中摘要應包含原文的核心內(nèi)容或用戶感興趣的內(nèi)容,并以語意連貫的段落乃至篇章的形式輸出[2]。因此,自動摘要是文本信息處理中重要的基礎性工作。
自動文摘系統(tǒng)的研究起源于20世紀50年代末,文獻[3]提出了可以用計算機進行文獻的壓縮。我國對中文自動文摘的研究起步較晚,1985年才有學者正式撰文介紹國外自動文摘方面的研究情況。20世紀80年代有學者將人工智能中一些理論應用在自動摘要中,90年代開始基于統(tǒng)計的自然語言處理方法再次興起,受此影響,自動摘要系統(tǒng)中統(tǒng)計方法的研究逐漸增多[4]。自動摘要技術總體上分為2類:基于機械統(tǒng)計的方法和基于知識理解的方法。
基于機械統(tǒng)計的方法[5,6]利用統(tǒng)計信息獲取文檔的關鍵詞,并結合提示詞、位置等啟發(fā)信息,從文檔中挑選出一些合適的句子,進行潤色后得到文檔的摘要。機械統(tǒng)計方法具有速度快、領域不受限的特點,但生成的摘要質量較差,存在反映內(nèi)容不夠全面以及語句冗余等問題。基于知識理解的方法[7,8]利用各種知識和形式化理論,在理解文檔語義內(nèi)容的基礎上生成文摘(對原文的概括或濃縮)。與機械統(tǒng)計方法相比,理解摘要質量較好,具有簡潔精煉、全面準確及可讀性強等優(yōu)點。但是,理解摘要不僅要求計算具有自然語言理解和生成能力,還需要表達和組織各種背景、領域知識。這些工作的難度十分巨大,迄今為止進展甚微。
本文針對以上2類方法存在的不足,提出了一種利用向量空間模型進行冗余處理的自動摘要方法。該方法以統(tǒng)計為基礎,利用向量空間模型解決語句冗余問題,有效提高了摘要質量,同時設計了一個中文自動摘要系統(tǒng)。
向量空間模型(Vector Space M odel,簡稱VSM)是一種較著名的用于文檔表示的統(tǒng)計模型,該模型以特征項做為文檔表示的基本單位,特征項可以由字詞或短語組成。每一個文檔可以看成是由特征項組成的n維特征向量空間的一個向量,即
其中,W i為第i個向量T i在文檔中的權重,一般選詞做特征項比選字做為特征項要好一些。最初的特征向量表示完全用0和1表示,如果文本中出現(xiàn)了該詞則文本向量的維為1,否則為0。這種方法無法體現(xiàn)這個詞在文本中的作用程度,所以0和1被更精確的詞頻代替。一般使用TF-IDF公式計算特征項權重,其中TF(Term Frequency,簡稱TF)表示詞頻,IDF(Inverse Docum ent Frequency,簡稱IDF)表示逆文檔頻率,反映文檔集合中出現(xiàn)該特征項的文檔數(shù)目的頻率,TF-IDF權重的計算公式為:其中,W(t,d)為詞t在文本d中的權重;tf(t,d)為詞t在文本d中的詞頻;N為訓練文本的總數(shù);nt為訓練文本集中出現(xiàn)t的文本數(shù);分母為歸一化因子。
在自動摘錄中,計算詞權、句權和選擇文摘句的依據(jù)是文本的6種形式特征:
(1)詞頻。能夠指示文章主題的所謂有效詞(SignificantWords)往往是中頻詞。根據(jù)句子中有效詞的個數(shù)可以計算句子的權值,文獻[3]首先提出了自動摘錄方法的基本依據(jù)。分析文章時,往往需要統(tǒng)計詞語出現(xiàn)的頻率,因為文章中一般出現(xiàn)頻率高的詞語能表示文章的中心內(nèi)容。
(2)標題。標題是作者給出的提示文章內(nèi)容的短語,借助停用詞詞表(Stoplist),在標題或小標題中剔除功能詞或只具有一般意義的名詞,剩下的詞和原文內(nèi)容往往有緊密的聯(lián)系,可以作為有效詞。由于新聞報道的特殊性,新聞標題一般更簡潔,與新聞報道的內(nèi)容聯(lián)系更緊密,對摘要的生成起重要作用。
(3)位置。句子的位置可以指句子在文章中的位置、在段落中的位置或在章節(jié)中的位置。一般地,一篇文章中的首句、末句,每個段落中的首句、末句等都是和句子中心內(nèi)容緊密相關的,因此,有必要提高處于特殊位置的句子的權值。
(4)線索詞。線索詞是指能提示文章主題出現(xiàn)的詞,如“總的來說”。另外,專有名詞如人名、機構名等也可看作是線索詞。包含線索詞的句子在分析時應給予一定的重視。
(5)句法結構。句式與句子的重要性之間存在著某種聯(lián)系,如文摘中的句子大多是陳述句,而疑問句、感嘆句等則不宜進入文摘。
(6)指示性短語。1977年,英國Lancaster大學的Paice提出根據(jù)各種“指示性短語”來選擇文摘句的方法[9]。和線索詞相比,指示性短語的可靠性要強得多。
對新聞網(wǎng)頁過濾后的文本首先進行分詞,根據(jù)句子中詞語的重要性以及句子的位置,抽取文本的初始文摘,將初始文摘中的句子表示成向量形式,利用向量空間模式中計算2個向量相似度的公式,計算原始文摘中句子的相似性,去除相似性比較大的冗余句子,從而得到自動摘要的冗余處理。
假設原文中包含的詞為W1,W2,…,Wn,則每個句子都可以表示為n維向量:T=〈T1,T2,…,Tn〉。Ti(1≤i≤n)的計算方法為:設n為W i在這個句子中出現(xiàn)的個數(shù),m為其它所有句子中含有Wi的句子的個數(shù),M為句子的總數(shù),那么Ti=n log(M/m)。
用同樣的方法[10],可以計算目標句子的n維向量T′=〈T′1,T′2,…,T′n〉。2個句子T和T′之間的相關程度常常用它們的相似度Sim(T,T′)來度量。在向量空間模型下,借助向量之間的夾角余弦值來表示文本間的相似度,即
利用(2)式計算出2個句子的相似度,當相似度達到給定閾值,說明句子之間的相似度很大,存在冗余,將其中權值較小的句子從文摘中刪除,進而達到去除冗余的目的。
算法:基于向量空間模型文本摘要的自動生成。
輸入:新聞網(wǎng)頁URL地址;生成摘要的百分比;原文最小長度閾值。
(1)對原始新聞網(wǎng)頁進行預處理,過濾掉其中存在的一些廣告鏈接、導航鏈接或圖片信息等。在進行自動摘要之前首先要對Web新聞網(wǎng)頁進行前期處理工作,去除頁面中無用信息,保留文檔正文。
(2)對抽取出來的正文文本長度進行統(tǒng)計,如果原文長度超過給定的閾值,則對原文進行分詞處理。如果正文長度不超過設定的閾值,則不再進行分詞等操作,直接將原文作為文摘結果輸出。
(3)按(3)式計算詞語ti在文檔d中的TFIDF i值,從高到低抽取若干詞語作為原文的關鍵詞,即
其中,t fi為詞語ti在文檔d中出現(xiàn)的頻率;N為所有文檔的數(shù)目;ni為包含詞語ti的文檔數(shù)目;分母是歸一化因子。
(4)根據(jù)標題關鍵詞、抽取的關鍵詞、句子的位置信息計算句子的權值,按權值大小排序,選取權值高的若干句子作為初始文摘句。
(5)原始文摘中句子表示成向量形式,計算任意2個句子的相似度,刪除相似度高的冗余句,得到原文的最終摘要句。
由于文檔摘要所具有的不確定性,因此在摘要質量的評估上缺乏比較理想的定量評估方法。對自動摘要的結果進行自動評估成為一個難題,目前還沒有比較理想的定量評價方法能進行自動評估,所以一般用人工摘要結果與之相比較,而摘要評估方法采用主觀評價和客觀評價2種。
3.1.1 主觀評價
本文探討了基于HPLC-DAD稻谷中葉黃素的提取方法,通過單因素試驗確定了各個因素的最佳條件。應用響應曲面法對四氫呋喃用量、KOH甲醇溶液質量濃度和提取溫度三個因素進行優(yōu)化,建立具有良好擬合度的回歸模型,得到最佳的提取方法為四氫呋喃用量15.5mL、KOH甲醇溶液質量濃度0.1g/mL、提取溫度51℃,稻谷中葉黃素提取量為(1.63±0.03)μg/g。該方法縮短了反應時間,避免了游離葉黃素的分解和異構化,具有較好的重復性。
主觀評價包括:①完全性,即摘要是否能完全反映文檔的主要內(nèi)容,是否有遺漏;②冗余性,即句子不能有重復;③可讀性和可理解性,即文摘句前后連貫,意義相承,語句流暢。
本系統(tǒng)生成的文摘屬于機械性文摘,所以可讀性和可理解性要差些。由于是按照段落抽取文摘,能保證其完全性;根據(jù)文中提到的句子相似度計算,去除文摘中的冗余,可以保證文摘句子沒有重復。
3.1.2 客觀評價
一般用準確率和召回率來衡量摘要的質量,兩者的數(shù)值越高說明摘要的質量越好。假設自動摘要出的句子集為X,人工摘要出的句子集為Y,則準確率和召回率可采用以下方法進行計算。
(1)準確率(P)。它是自動摘要結果中屬于應摘出的句子數(shù)目和自動摘出的所有句子數(shù)目的比值,即
(2)召回率(R)。它是自動摘要結果中屬于應摘出的句子數(shù)目和應該摘出的句子數(shù)目的比值,即
如某篇文章在文摘長度占文章比例10%時,系統(tǒng)抽取出文摘句子數(shù)為8句,該文章的專家文摘抽取的句子數(shù)量為12句,同時存在于文摘系統(tǒng)和專家文摘句中的句子數(shù)量為5句,則系統(tǒng)在該文章的文摘長度為10%時,有
實驗的測試語料集來源于網(wǎng)易163網(wǎng)站http://new s.163.com.cn上抓取的新聞,涵蓋了軍事、科技、體育等10個類別的文檔集,在每個類別中隨機抽取10篇新聞,這樣共得到10個類別的500篇文檔。
測試文檔類的類名及其包含的文檔數(shù)目,見表1所列。
表1 文本摘要測試數(shù)據(jù)集
在硬件環(huán)境CPU Celeron1.7 GH z,內(nèi)存512 M;軟件環(huán)境W indow s XP,Java6.0上實現(xiàn)了自動文摘系統(tǒng)。文本平均測評參數(shù),見表2所列。此摘要系統(tǒng)的質量雖然不能和人工摘要質量相比,但處理速度還是令人滿意的。
表2 自動文摘評價參數(shù)
從表2可以看出,隨著抽取摘要長度比例的增加,準確率呈下降趨勢,而召回率呈上升趨勢。這是因為隨著抽取摘要長度的增加,抽取的文摘句數(shù)也增加,抽取的句子數(shù)增加的趨勢大于抽取的文摘句增加的趨勢,所以準確率有所下降;原文實際的文摘句始終保持不變,所以準確率呈上升趨勢。
Internet上的文本自動摘要是一個涉及多學科領域知識的應用技術,而中文分詞技術有待進一步突破;網(wǎng)頁中結構化信息的比例增大,雖然有助于自動摘要的質量提高,但最根本的還是文本理解技術要有本質性的突破。針對Internet上新聞網(wǎng)頁的特征,本文提出了一套新的自動摘要方案:首先將新聞網(wǎng)頁預處理,過濾掉其中的噪音;然后對文本內(nèi)容進行分詞及提取關鍵詞,生成初步文摘;最后對文摘進行冗余處理,生成文字流程且具備一定質量的文摘。
理論和實驗結果表明,該方法具有不受領域限制、摘要內(nèi)容全面及摘要比例可調(diào)等優(yōu)點。在今后的工作中,將進一步提高文摘生成的速度,適當利用一些自然語言理解技術來改進文摘的質量,從而提高Web文摘生成系統(tǒng)的性能。
[1] 江開忠,李子成,顧君忠.自動文本摘要方法[J].計算機工程,2008,34(1):221-223.
[2] 官禮和.Internet網(wǎng)絡新聞文本自動摘要的研究[J].計算機工程與設計,2007,28(14):3518-3521.
[3] Luhn H P.The automatic creation of literatu re abstracts[J].IBM Jou rnal of Research and Developm ent,1958,2(2):159-165.
[4] 尹存燕,戴新宇,陳家駿.Internet上文本的自動摘要技術[J].計算機工程,2006,32(3):88-90.
[5] 王文欣,黃萱菁.基于統(tǒng)計方法的漢語自動文摘系統(tǒng)研究[J].計算機應用與軟件,2000,17(9):28-33.
[6] 王永成,許慧敏.OA-1.4版中文自動摘要系統(tǒng)[J].高技術通訊,1998,(1):19-23.
[7] 吳 巖,劉 挺.中文自動文摘原理與方法初探[J].中文信息學報,1998,12(2):8-16.
[8] 孫春葵,李 蕾.基于知識的文本摘要系統(tǒng)研究與實現(xiàn)[J].計算機研究與發(fā)展,2000,37(7):874-881.
[9] Mathis B A,Rush JE.Abstracting en cyclopedia of compu ter and technology[M].New York:Marcel Dekker Inc,1975:102-142.
[10] 秦 兵,劉 挺,王 洋,等.基于常問問題集的中文問答系統(tǒng)研究[J].哈爾濱工業(yè)大學學報,2003,35(10):1179-1182.