亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于向量空間模型的自動摘要冗余處理研究

        2010-03-26 02:33:20張筱丹胡學鋼
        關鍵詞:文摘文檔原文

        張筱丹, 胡學鋼

        (1.合肥工業(yè)大學計算機與信息學院,安徽合肥 230009;2.安徽農(nóng)業(yè)大學信息與計算機學院,安徽合肥 230036)

        0 引 言

        隨著信息技術的飛速發(fā)展和互聯(lián)網(wǎng)的普及,文本資源呈現(xiàn)出幾何級的增長。但是,網(wǎng)絡上的信息量大,更新速度快,用戶很難迅速地找出目標信息。自動文摘是繼信息檢索之后信息或知識獲取的一個重要步驟,對高質量的文檔文摘十分重要[1]。自動文摘是利用計算機從文章中自動提取內(nèi)容生成摘要的方法,其中摘要應包含原文的核心內(nèi)容或用戶感興趣的內(nèi)容,并以語意連貫的段落乃至篇章的形式輸出[2]。因此,自動摘要是文本信息處理中重要的基礎性工作。

        自動文摘系統(tǒng)的研究起源于20世紀50年代末,文獻[3]提出了可以用計算機進行文獻的壓縮。我國對中文自動文摘的研究起步較晚,1985年才有學者正式撰文介紹國外自動文摘方面的研究情況。20世紀80年代有學者將人工智能中一些理論應用在自動摘要中,90年代開始基于統(tǒng)計的自然語言處理方法再次興起,受此影響,自動摘要系統(tǒng)中統(tǒng)計方法的研究逐漸增多[4]。自動摘要技術總體上分為2類:基于機械統(tǒng)計的方法和基于知識理解的方法。

        基于機械統(tǒng)計的方法[5,6]利用統(tǒng)計信息獲取文檔的關鍵詞,并結合提示詞、位置等啟發(fā)信息,從文檔中挑選出一些合適的句子,進行潤色后得到文檔的摘要。機械統(tǒng)計方法具有速度快、領域不受限的特點,但生成的摘要質量較差,存在反映內(nèi)容不夠全面以及語句冗余等問題。基于知識理解的方法[7,8]利用各種知識和形式化理論,在理解文檔語義內(nèi)容的基礎上生成文摘(對原文的概括或濃縮)。與機械統(tǒng)計方法相比,理解摘要質量較好,具有簡潔精煉、全面準確及可讀性強等優(yōu)點。但是,理解摘要不僅要求計算具有自然語言理解和生成能力,還需要表達和組織各種背景、領域知識。這些工作的難度十分巨大,迄今為止進展甚微。

        本文針對以上2類方法存在的不足,提出了一種利用向量空間模型進行冗余處理的自動摘要方法。該方法以統(tǒng)計為基礎,利用向量空間模型解決語句冗余問題,有效提高了摘要質量,同時設計了一個中文自動摘要系統(tǒng)。

        1 相關工作

        1.1 向量空間模型

        向量空間模型(Vector Space M odel,簡稱VSM)是一種較著名的用于文檔表示的統(tǒng)計模型,該模型以特征項做為文檔表示的基本單位,特征項可以由字詞或短語組成。每一個文檔可以看成是由特征項組成的n維特征向量空間的一個向量,即

        其中,W i為第i個向量T i在文檔中的權重,一般選詞做特征項比選字做為特征項要好一些。最初的特征向量表示完全用0和1表示,如果文本中出現(xiàn)了該詞則文本向量的維為1,否則為0。這種方法無法體現(xiàn)這個詞在文本中的作用程度,所以0和1被更精確的詞頻代替。一般使用TF-IDF公式計算特征項權重,其中TF(Term Frequency,簡稱TF)表示詞頻,IDF(Inverse Docum ent Frequency,簡稱IDF)表示逆文檔頻率,反映文檔集合中出現(xiàn)該特征項的文檔數(shù)目的頻率,TF-IDF權重的計算公式為:其中,W(t,d)為詞t在文本d中的權重;tf(t,d)為詞t在文本d中的詞頻;N為訓練文本的總數(shù);nt為訓練文本集中出現(xiàn)t的文本數(shù);分母為歸一化因子。

        1.2 自動摘要的依據(jù)

        在自動摘錄中,計算詞權、句權和選擇文摘句的依據(jù)是文本的6種形式特征:

        (1)詞頻。能夠指示文章主題的所謂有效詞(SignificantWords)往往是中頻詞。根據(jù)句子中有效詞的個數(shù)可以計算句子的權值,文獻[3]首先提出了自動摘錄方法的基本依據(jù)。分析文章時,往往需要統(tǒng)計詞語出現(xiàn)的頻率,因為文章中一般出現(xiàn)頻率高的詞語能表示文章的中心內(nèi)容。

        (2)標題。標題是作者給出的提示文章內(nèi)容的短語,借助停用詞詞表(Stoplist),在標題或小標題中剔除功能詞或只具有一般意義的名詞,剩下的詞和原文內(nèi)容往往有緊密的聯(lián)系,可以作為有效詞。由于新聞報道的特殊性,新聞標題一般更簡潔,與新聞報道的內(nèi)容聯(lián)系更緊密,對摘要的生成起重要作用。

        (3)位置。句子的位置可以指句子在文章中的位置、在段落中的位置或在章節(jié)中的位置。一般地,一篇文章中的首句、末句,每個段落中的首句、末句等都是和句子中心內(nèi)容緊密相關的,因此,有必要提高處于特殊位置的句子的權值。

        (4)線索詞。線索詞是指能提示文章主題出現(xiàn)的詞,如“總的來說”。另外,專有名詞如人名、機構名等也可看作是線索詞。包含線索詞的句子在分析時應給予一定的重視。

        (5)句法結構。句式與句子的重要性之間存在著某種聯(lián)系,如文摘中的句子大多是陳述句,而疑問句、感嘆句等則不宜進入文摘。

        (6)指示性短語。1977年,英國Lancaster大學的Paice提出根據(jù)各種“指示性短語”來選擇文摘句的方法[9]。和線索詞相比,指示性短語的可靠性要強得多。

        2 基于VSM的自動摘要冗余處理

        2.1 基本思想

        對新聞網(wǎng)頁過濾后的文本首先進行分詞,根據(jù)句子中詞語的重要性以及句子的位置,抽取文本的初始文摘,將初始文摘中的句子表示成向量形式,利用向量空間模式中計算2個向量相似度的公式,計算原始文摘中句子的相似性,去除相似性比較大的冗余句子,從而得到自動摘要的冗余處理。

        假設原文中包含的詞為W1,W2,…,Wn,則每個句子都可以表示為n維向量:T=〈T1,T2,…,Tn〉。Ti(1≤i≤n)的計算方法為:設n為W i在這個句子中出現(xiàn)的個數(shù),m為其它所有句子中含有Wi的句子的個數(shù),M為句子的總數(shù),那么Ti=n log(M/m)。

        用同樣的方法[10],可以計算目標句子的n維向量T′=〈T′1,T′2,…,T′n〉。2個句子T和T′之間的相關程度常常用它們的相似度Sim(T,T′)來度量。在向量空間模型下,借助向量之間的夾角余弦值來表示文本間的相似度,即

        利用(2)式計算出2個句子的相似度,當相似度達到給定閾值,說明句子之間的相似度很大,存在冗余,將其中權值較小的句子從文摘中刪除,進而達到去除冗余的目的。

        2.2 算法描述

        算法:基于向量空間模型文本摘要的自動生成。

        輸入:新聞網(wǎng)頁URL地址;生成摘要的百分比;原文最小長度閾值。

        (1)對原始新聞網(wǎng)頁進行預處理,過濾掉其中存在的一些廣告鏈接、導航鏈接或圖片信息等。在進行自動摘要之前首先要對Web新聞網(wǎng)頁進行前期處理工作,去除頁面中無用信息,保留文檔正文。

        (2)對抽取出來的正文文本長度進行統(tǒng)計,如果原文長度超過給定的閾值,則對原文進行分詞處理。如果正文長度不超過設定的閾值,則不再進行分詞等操作,直接將原文作為文摘結果輸出。

        (3)按(3)式計算詞語ti在文檔d中的TFIDF i值,從高到低抽取若干詞語作為原文的關鍵詞,即

        其中,t fi為詞語ti在文檔d中出現(xiàn)的頻率;N為所有文檔的數(shù)目;ni為包含詞語ti的文檔數(shù)目;分母是歸一化因子。

        (4)根據(jù)標題關鍵詞、抽取的關鍵詞、句子的位置信息計算句子的權值,按權值大小排序,選取權值高的若干句子作為初始文摘句。

        (5)原始文摘中句子表示成向量形式,計算任意2個句子的相似度,刪除相似度高的冗余句,得到原文的最終摘要句。

        3 實驗和分析

        3.1 自動摘要評價標準

        由于文檔摘要所具有的不確定性,因此在摘要質量的評估上缺乏比較理想的定量評估方法。對自動摘要的結果進行自動評估成為一個難題,目前還沒有比較理想的定量評價方法能進行自動評估,所以一般用人工摘要結果與之相比較,而摘要評估方法采用主觀評價和客觀評價2種。

        3.1.1 主觀評價

        本文探討了基于HPLC-DAD稻谷中葉黃素的提取方法,通過單因素試驗確定了各個因素的最佳條件。應用響應曲面法對四氫呋喃用量、KOH甲醇溶液質量濃度和提取溫度三個因素進行優(yōu)化,建立具有良好擬合度的回歸模型,得到最佳的提取方法為四氫呋喃用量15.5mL、KOH甲醇溶液質量濃度0.1g/mL、提取溫度51℃,稻谷中葉黃素提取量為(1.63±0.03)μg/g。該方法縮短了反應時間,避免了游離葉黃素的分解和異構化,具有較好的重復性。

        主觀評價包括:①完全性,即摘要是否能完全反映文檔的主要內(nèi)容,是否有遺漏;②冗余性,即句子不能有重復;③可讀性和可理解性,即文摘句前后連貫,意義相承,語句流暢。

        本系統(tǒng)生成的文摘屬于機械性文摘,所以可讀性和可理解性要差些。由于是按照段落抽取文摘,能保證其完全性;根據(jù)文中提到的句子相似度計算,去除文摘中的冗余,可以保證文摘句子沒有重復。

        3.1.2 客觀評價

        一般用準確率和召回率來衡量摘要的質量,兩者的數(shù)值越高說明摘要的質量越好。假設自動摘要出的句子集為X,人工摘要出的句子集為Y,則準確率和召回率可采用以下方法進行計算。

        (1)準確率(P)。它是自動摘要結果中屬于應摘出的句子數(shù)目和自動摘出的所有句子數(shù)目的比值,即

        (2)召回率(R)。它是自動摘要結果中屬于應摘出的句子數(shù)目和應該摘出的句子數(shù)目的比值,即

        如某篇文章在文摘長度占文章比例10%時,系統(tǒng)抽取出文摘句子數(shù)為8句,該文章的專家文摘抽取的句子數(shù)量為12句,同時存在于文摘系統(tǒng)和專家文摘句中的句子數(shù)量為5句,則系統(tǒng)在該文章的文摘長度為10%時,有

        3.2 內(nèi)部測評

        實驗的測試語料集來源于網(wǎng)易163網(wǎng)站http://new s.163.com.cn上抓取的新聞,涵蓋了軍事、科技、體育等10個類別的文檔集,在每個類別中隨機抽取10篇新聞,這樣共得到10個類別的500篇文檔。

        測試文檔類的類名及其包含的文檔數(shù)目,見表1所列。

        表1 文本摘要測試數(shù)據(jù)集

        在硬件環(huán)境CPU Celeron1.7 GH z,內(nèi)存512 M;軟件環(huán)境W indow s XP,Java6.0上實現(xiàn)了自動文摘系統(tǒng)。文本平均測評參數(shù),見表2所列。此摘要系統(tǒng)的質量雖然不能和人工摘要質量相比,但處理速度還是令人滿意的。

        表2 自動文摘評價參數(shù)

        從表2可以看出,隨著抽取摘要長度比例的增加,準確率呈下降趨勢,而召回率呈上升趨勢。這是因為隨著抽取摘要長度的增加,抽取的文摘句數(shù)也增加,抽取的句子數(shù)增加的趨勢大于抽取的文摘句增加的趨勢,所以準確率有所下降;原文實際的文摘句始終保持不變,所以準確率呈上升趨勢。

        4 結束語

        Internet上的文本自動摘要是一個涉及多學科領域知識的應用技術,而中文分詞技術有待進一步突破;網(wǎng)頁中結構化信息的比例增大,雖然有助于自動摘要的質量提高,但最根本的還是文本理解技術要有本質性的突破。針對Internet上新聞網(wǎng)頁的特征,本文提出了一套新的自動摘要方案:首先將新聞網(wǎng)頁預處理,過濾掉其中的噪音;然后對文本內(nèi)容進行分詞及提取關鍵詞,生成初步文摘;最后對文摘進行冗余處理,生成文字流程且具備一定質量的文摘。

        理論和實驗結果表明,該方法具有不受領域限制、摘要內(nèi)容全面及摘要比例可調(diào)等優(yōu)點。在今后的工作中,將進一步提高文摘生成的速度,適當利用一些自然語言理解技術來改進文摘的質量,從而提高Web文摘生成系統(tǒng)的性能。

        [1] 江開忠,李子成,顧君忠.自動文本摘要方法[J].計算機工程,2008,34(1):221-223.

        [2] 官禮和.Internet網(wǎng)絡新聞文本自動摘要的研究[J].計算機工程與設計,2007,28(14):3518-3521.

        [3] Luhn H P.The automatic creation of literatu re abstracts[J].IBM Jou rnal of Research and Developm ent,1958,2(2):159-165.

        [4] 尹存燕,戴新宇,陳家駿.Internet上文本的自動摘要技術[J].計算機工程,2006,32(3):88-90.

        [5] 王文欣,黃萱菁.基于統(tǒng)計方法的漢語自動文摘系統(tǒng)研究[J].計算機應用與軟件,2000,17(9):28-33.

        [6] 王永成,許慧敏.OA-1.4版中文自動摘要系統(tǒng)[J].高技術通訊,1998,(1):19-23.

        [7] 吳 巖,劉 挺.中文自動文摘原理與方法初探[J].中文信息學報,1998,12(2):8-16.

        [8] 孫春葵,李 蕾.基于知識的文本摘要系統(tǒng)研究與實現(xiàn)[J].計算機研究與發(fā)展,2000,37(7):874-881.

        [9] Mathis B A,Rush JE.Abstracting en cyclopedia of compu ter and technology[M].New York:Marcel Dekker Inc,1975:102-142.

        [10] 秦 兵,劉 挺,王 洋,等.基于常問問題集的中文問答系統(tǒng)研究[J].哈爾濱工業(yè)大學學報,2003,35(10):1179-1182.

        猜你喜歡
        文摘文檔原文
        有人一聲不吭向你扔了個文檔
        IAPA文摘
        讓句子動起來
        文摘
        寶藏(2017年2期)2017-03-20 13:16:46
        基于RI碼計算的Word復制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        嘗糞憂心
        賣身葬父
        Performance of a double-layer BAF using zeolite and ceramic as media under ammonium shock load condition
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        精品国精品自拍自在线| 3d动漫精品啪啪一区二区下载| 久久综合网天天 | 一区二区三区国产视频在线观看 | 欧美激情国产亚州一区二区| 亚洲国产一区二区视频| 国产av一区二区三区无码野战| 中文字幕爆乳julia女教师| 久久99精品久久久66| 亚洲中文字幕第一页免费| 三个男吃我奶头一边一个视频| 亚洲色欲久久久久综合网| 91精品综合久久久久m3u8| 国内偷拍精品一区二区| 亚洲av色香蕉一区二区三区老师| 亚洲成色在线综合网站| 亚洲一区二区免费日韩| 国产av在线观看一区二区三区 | 狠狠色综合7777久夜色撩人ⅰ| 国产不卡一区二区三区免费视 | 国产精品第1页在线观看| 99国产精品欲av麻豆在线观看| 国产精品会所一区二区三区| 50岁熟妇的呻吟声对白| 人妻少妇一区二区三区| 国产在线视频网友自拍| 亚洲国产成人久久三区| 欧美自拍视频在线| 国产成人精品中文字幕| 精品熟人妻一区二区三区四区不卡| 国产男女猛烈视频在线观看| 亚洲va在线va天堂va四虎| 国产69精品麻豆久久| 热久久国产欧美一区二区精品 | 黄色国产精品福利刺激午夜片| 中文无码一区二区不卡av| 人妻丰满多毛熟妇免费区| 热综合一本伊人久久精品| 欧美国产激情二区三区| 五十路熟妇亲子交尾| 偷柏自拍亚洲综合在线|