亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于向量空間模型的自動摘要冗余處理研究

2010-03-26 02:33:20張筱丹胡學鋼

合肥工業(yè)大學學報(自然科學版) 2010年9期

張筱丹，胡學鋼

(1.合肥工業(yè)大學計算機與信息學院，安徽合肥 230009;2.安徽農(nóng)業(yè)大學信息與計算機學院，安徽合肥 230036)

0 引言

隨著信息技術的飛速發(fā)展和互聯(lián)網(wǎng)的普及，文本資源呈現(xiàn)出幾何級的增長。但是，網(wǎng)絡上的信息量大，更新速度快，用戶很難迅速地找出目標信息。自動文摘是繼信息檢索之后信息或知識獲取的一個重要步驟，對高質量的文檔文摘十分重要[1]。自動文摘是利用計算機從文章中自動提取內(nèi)容生成摘要的方法，其中摘要應包含原文的核心內(nèi)容或用戶感興趣的內(nèi)容，并以語意連貫的段落乃至篇章的形式輸出[2]。因此，自動摘要是文本信息處理中重要的基礎性工作。

自動文摘系統(tǒng)的研究起源于20世紀50年代末，文獻[3]提出了可以用計算機進行文獻的壓縮。我國對中文自動文摘的研究起步較晚，1985年才有學者正式撰文介紹國外自動文摘方面的研究情況。20世紀80年代有學者將人工智能中一些理論應用在自動摘要中，90年代開始基于統(tǒng)計的自然語言處理方法再次興起，受此影響，自動摘要系統(tǒng)中統(tǒng)計方法的研究逐漸增多[4]。自動摘要技術總體上分為2類:基于機械統(tǒng)計的方法和基于知識理解的方法。

基于機械統(tǒng)計的方法[5，6]利用統(tǒng)計信息獲取文檔的關鍵詞，并結合提示詞、位置等啟發(fā)信息，從文檔中挑選出一些合適的句子，進行潤色后得到文檔的摘要。機械統(tǒng)計方法具有速度快、領域不受限的特點，但生成的摘要質量較差，存在反映內(nèi)容不夠全面以及語句冗余等問題。基于知識理解的方法[7，8]利用各種知識和形式化理論，在理解文檔語義內(nèi)容的基礎上生成文摘(對原文的概括或濃縮)。與機械統(tǒng)計方法相比，理解摘要質量較好，具有簡潔精煉、全面準確及可讀性強等優(yōu)點。但是，理解摘要不僅要求計算具有自然語言理解和生成能力，還需要表達和組織各種背景、領域知識。這些工作的難度十分巨大，迄今為止進展甚微。

本文針對以上2類方法存在的不足，提出了一種利用向量空間模型進行冗余處理的自動摘要方法。該方法以統(tǒng)計為基礎，利用向量空間模型解決語句冗余問題，有效提高了摘要質量，同時設計了一個中文自動摘要系統(tǒng)。

1 相關工作

1.1 向量空間模型

向量空間模型(Vector Space M odel，簡稱VSM)是一種較著名的用于文檔表示的統(tǒng)計模型，該模型以特征項做為文檔表示的基本單位，特征項可以由字詞或短語組成。每一個文檔可以看成是由特征項組成的n維特征向量空間的一個向量，即

其中，W i為第i個向量T i在文檔中的權重，一般選詞做特征項比選字做為特征項要好一些。最初的特征向量表示完全用0和1表示，如果文本中出現(xiàn)了該詞則文本向量的維為1，否則為0。這種方法無法體現(xiàn)這個詞在文本中的作用程度，所以0和1被更精確的詞頻代替。一般使用TF-IDF公式計算特征項權重，其中TF(Term Frequency，簡稱TF)表示詞頻，IDF(Inverse Docum ent Frequency，簡稱IDF)表示逆文檔頻率，反映文檔集合中出現(xiàn)該特征項的文檔數(shù)目的頻率，TF-IDF權重的計算公式為:其中，W(t，d)為詞t在文本d中的權重;tf(t，d)為詞t在文本d中的詞頻;N為訓練文本的總數(shù);nt為訓練文本集中出現(xiàn)t的文本數(shù);分母為歸一化因子。

1.2 自動摘要的依據(jù)

在自動摘錄中，計算詞權、句權和選擇文摘句的依據(jù)是文本的6種形式特征:

(1)詞頻。能夠指示文章主題的所謂有效詞(SignificantWords)往往是中頻詞。根據(jù)句子中有效詞的個數(shù)可以計算句子的權值，文獻[3]首先提出了自動摘錄方法的基本依據(jù)。分析文章時，往往需要統(tǒng)計詞語出現(xiàn)的頻率，因為文章中一般出現(xiàn)頻率高的詞語能表示文章的中心內(nèi)容。

(2)標題。標題是作者給出的提示文章內(nèi)容的短語，借助停用詞詞表(Stoplist)，在標題或小標題中剔除功能詞或只具有一般意義的名詞，剩下的詞和原文內(nèi)容往往有緊密的聯(lián)系，可以作為有效詞。由于新聞報道的特殊性，新聞標題一般更簡潔，與新聞報道的內(nèi)容聯(lián)系更緊密，對摘要的生成起重要作用。

(3)位置。句子的位置可以指句子在文章中的位置、在段落中的位置或在章節(jié)中的位置。一般地，一篇文章中的首句、末句，每個段落中的首句、末句等都是和句子中心內(nèi)容緊密相關的，因此，有必要提高處于特殊位置的句子的權值。

(4)線索詞。線索詞是指能提示文章主題出現(xiàn)的詞，如“總的來說”。另外，專有名詞如人名、機構名等也可看作是線索詞。包含線索詞的句子在分析時應給予一定的重視。

(5)句法結構。句式與句子的重要性之間存在著某種聯(lián)系，如文摘中的句子大多是陳述句，而疑問句、感嘆句等則不宜進入文摘。

(6)指示性短語。1977年，英國Lancaster大學的Paice提出根據(jù)各種“指示性短語”來選擇文摘句的方法[9]。和線索詞相比，指示性短語的可靠性要強得多。

2 基于VSM的自動摘要冗余處理

2.1 基本思想

對新聞網(wǎng)頁過濾后的文本首先進行分詞，根據(jù)句子中詞語的重要性以及句子的位置，抽取文本的初始文摘，將初始文摘中的句子表示成向量形式，利用向量空間模式中計算2個向量相似度的公式，計算原始文摘中句子的相似性，去除相似性比較大的冗余句子，從而得到自動摘要的冗余處理。

假設原文中包含的詞為W1，W2，…，Wn，則每個句子都可以表示為n維向量:T=〈T1，T2，…，Tn〉。Ti(1≤i≤n)的計算方法為:設n為W i在這個句子中出現(xiàn)的個數(shù)，m為其它所有句子中含有Wi的句子的個數(shù)，M為句子的總數(shù)，那么Ti=n log(M/m)。

用同樣的方法[10]，可以計算目標句子的n維向量T′=〈T′1，T′2，…，T′n〉。2個句子T和T′之間的相關程度常常用它們的相似度Sim(T，T′)來度量。在向量空間模型下，借助向量之間的夾角余弦值來表示文本間的相似度，即

利用(2)式計算出2個句子的相似度，當相似度達到給定閾值，說明句子之間的相似度很大，存在冗余，將其中權值較小的句子從文摘中刪除，進而達到去除冗余的目的。

2.2 算法描述

算法:基于向量空間模型文本摘要的自動生成。

輸入:新聞網(wǎng)頁URL地址;生成摘要的百分比;原文最小長度閾值。

(1)對原始新聞網(wǎng)頁進行預處理，過濾掉其中存在的一些廣告鏈接、導航鏈接或圖片信息等。在進行自動摘要之前首先要對Web新聞網(wǎng)頁進行前期處理工作，去除頁面中無用信息，保留文檔正文。

(2)對抽取出來的正文文本長度進行統(tǒng)計，如果原文長度超過給定的閾值，則對原文進行分詞處理。如果正文長度不超過設定的閾值，則不再進行分詞等操作，直接將原文作為文摘結果輸出。

(3)按(3)式計算詞語ti在文檔d中的TFIDF i值，從高到低抽取若干詞語作為原文的關鍵詞，即

其中，t fi為詞語ti在文檔d中出現(xiàn)的頻率;N為所有文檔的數(shù)目;ni為包含詞語ti的文檔數(shù)目;分母是歸一化因子。

(4)根據(jù)標題關鍵詞、抽取的關鍵詞、句子的位置信息計算句子的權值，按權值大小排序，選取權值高的若干句子作為初始文摘句。

(5)原始文摘中句子表示成向量形式，計算任意2個句子的相似度，刪除相似度高的冗余句，得到原文的最終摘要句。

3 實驗和分析

3.1 自動摘要評價標準

由于文檔摘要所具有的不確定性，因此在摘要質量的評估上缺乏比較理想的定量評估方法。對自動摘要的結果進行自動評估成為一個難題，目前還沒有比較理想的定量評價方法能進行自動評估，所以一般用人工摘要結果與之相比較，而摘要評估方法采用主觀評價和客觀評價2種。

3.1.1 主觀評價

本文探討了基于HPLC-DAD稻谷中葉黃素的提取方法，通過單因素試驗確定了各個因素的最佳條件。應用響應曲面法對四氫呋喃用量、KOH甲醇溶液質量濃度和提取溫度三個因素進行優(yōu)化，建立具有良好擬合度的回歸模型，得到最佳的提取方法為四氫呋喃用量15.5mL、KOH甲醇溶液質量濃度0.1g/mL、提取溫度51℃，稻谷中葉黃素提取量為（1.63±0.03）μg/g。該方法縮短了反應時間，避免了游離葉黃素的分解和異構化，具有較好的重復性。

主觀評價包括:①完全性，即摘要是否能完全反映文檔的主要內(nèi)容，是否有遺漏;②冗余性，即句子不能有重復;③可讀性和可理解性，即文摘句前后連貫，意義相承，語句流暢。

本系統(tǒng)生成的文摘屬于機械性文摘，所以可讀性和可理解性要差些。由于是按照段落抽取文摘，能保證其完全性;根據(jù)文中提到的句子相似度計算，去除文摘中的冗余，可以保證文摘句子沒有重復。

3.1.2 客觀評價

一般用準確率和召回率來衡量摘要的質量，兩者的數(shù)值越高說明摘要的質量越好。假設自動摘要出的句子集為X，人工摘要出的句子集為Y，則準確率和召回率可采用以下方法進行計算。

(1)準確率(P)。它是自動摘要結果中屬于應摘出的句子數(shù)目和自動摘出的所有句子數(shù)目的比值，即

(2)召回率(R)。它是自動摘要結果中屬于應摘出的句子數(shù)目和應該摘出的句子數(shù)目的比值，即

如某篇文章在文摘長度占文章比例10%時，系統(tǒng)抽取出文摘句子數(shù)為8句，該文章的專家文摘抽取的句子數(shù)量為12句，同時存在于文摘系統(tǒng)和專家文摘句中的句子數(shù)量為5句，則系統(tǒng)在該文章的文摘長度為10%時，有

3.2 內(nèi)部測評

實驗的測試語料集來源于網(wǎng)易163網(wǎng)站http://new s.163.com.cn上抓取的新聞，涵蓋了軍事、科技、體育等10個類別的文檔集，在每個類別中隨機抽取10篇新聞，這樣共得到10個類別的500篇文檔。

測試文檔類的類名及其包含的文檔數(shù)目，見表1所列。

表1 文本摘要測試數(shù)據(jù)集

在硬件環(huán)境CPU Celeron1.7 GH z，內(nèi)存512 M;軟件環(huán)境W indow s XP，Java6.0上實現(xiàn)了自動文摘系統(tǒng)。文本平均測評參數(shù)，見表2所列。此摘要系統(tǒng)的質量雖然不能和人工摘要質量相比，但處理速度還是令人滿意的。

表2 自動文摘評價參數(shù)

從表2可以看出，隨著抽取摘要長度比例的增加，準確率呈下降趨勢，而召回率呈上升趨勢。這是因為隨著抽取摘要長度的增加，抽取的文摘句數(shù)也增加，抽取的句子數(shù)增加的趨勢大于抽取的文摘句增加的趨勢，所以準確率有所下降;原文實際的文摘句始終保持不變，所以準確率呈上升趨勢。

4 結束語

Internet上的文本自動摘要是一個涉及多學科領域知識的應用技術，而中文分詞技術有待進一步突破;網(wǎng)頁中結構化信息的比例增大，雖然有助于自動摘要的質量提高，但最根本的還是文本理解技術要有本質性的突破。針對Internet上新聞網(wǎng)頁的特征，本文提出了一套新的自動摘要方案:首先將新聞網(wǎng)頁預處理，過濾掉其中的噪音;然后對文本內(nèi)容進行分詞及提取關鍵詞，生成初步文摘;最后對文摘進行冗余處理，生成文字流程且具備一定質量的文摘。

理論和實驗結果表明，該方法具有不受領域限制、摘要內(nèi)容全面及摘要比例可調(diào)等優(yōu)點。在今后的工作中，將進一步提高文摘生成的速度，適當利用一些自然語言理解技術來改進文摘的質量，從而提高Web文摘生成系統(tǒng)的性能。

[1] 江開忠，李子成，顧君忠.自動文本摘要方法[J].計算機工程，2008，34(1):221-223.

[2] 官禮和.Internet網(wǎng)絡新聞文本自動摘要的研究[J].計算機工程與設計，2007，28(14):3518-3521.

[3] Luhn H P.The automatic creation of literatu re abstracts[J].IBM Jou rnal of Research and Developm ent，1958，2(2):159-165.

[4] 尹存燕，戴新宇，陳家駿.Internet上文本的自動摘要技術[J].計算機工程，2006，32(3):88-90.

[5] 王文欣，黃萱菁.基于統(tǒng)計方法的漢語自動文摘系統(tǒng)研究[J].計算機應用與軟件，2000，17(9):28-33.

[6] 王永成，許慧敏.OA-1.4版中文自動摘要系統(tǒng)[J].高技術通訊，1998，(1):19-23.

[7] 吳巖，劉挺.中文自動文摘原理與方法初探[J].中文信息學報，1998，12(2):8-16.

[8] 孫春葵，李蕾.基于知識的文本摘要系統(tǒng)研究與實現(xiàn)[J].計算機研究與發(fā)展，2000，37(7):874-881.

[9] Mathis B A，Rush JE.Abstracting en cyclopedia of compu ter and technology[M].New York:Marcel Dekker Inc，1975:102-142.

[10] 秦兵，劉挺，王洋，等.基于常問問題集的中文問答系統(tǒng)研究[J].哈爾濱工業(yè)大學學報，2003，35(10):1179-1182.