亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于訓練集的自動文摘方法的研究

        2011-12-27 08:54:22程傳鵬
        中原工學院學報 2011年1期
        關鍵詞:詞條主題詞段落

        程傳鵬

        (中原工學院,鄭州 450007)

        基于訓練集的自動文摘方法的研究

        程傳鵬

        (中原工學院,鄭州 450007)

        提出了一種基于訓練集的自動文摘方法.依據(jù)訓練集所產生的主題詞,設計出一種新的段落加權公式和一種新的句子重要性加權公式,將生成的主題句消除冗余后得到文摘.測試結果表明,該方法具有一定的實用性.

        訓練集;主題詞;主題句;自動文摘

        自動文摘就是利用計算機從文檔中提取盡可能少的句子,要求這些句子語意連貫,并且能夠最大限度地體現(xiàn)原文檔所要表達的中心思想.隨著Internet的迅猛發(fā)展以及無紙化辦公的普及,各種格式的電子文件大量涌現(xiàn).從這些電子文檔中迅速、準確地進行自動文摘,已經成為一項重要的研究課題.目前,自動文摘的方法大體上可以分為2類:基于統(tǒng)計的機械文摘方法和基于理解的文摘方法[1].前者主要是簡單的對詞頻(詞條在全文中所出現(xiàn)的次數(shù))進行統(tǒng)計,依照詞頻來確定主題詞,主題句的產生也只是依賴所包含主題詞的數(shù)量的多少.它的優(yōu)點是實現(xiàn)簡單,文摘效率較高,但得到的文摘往往不能很好地體現(xiàn)原始文檔的中心思想.后者則是利用人工智能技術,特別是自然語言理解技術為核心,在對文本進行語法結構分析的同時,利用領域知識對文本的語義進行分析,通過判斷推理,得出文摘句的語義描述,根據(jù)語義描述自動生成摘要.這種方法雖然一定程度上彌補了機械文摘的不足,提高了文摘的質量,但需要構建復雜的推理規(guī)則,文摘生成過程所耗時間長,實時性能低劣.

        文摘的質量固然重要,但低劣的實時性也是不能接受的.基于此,本文提出了一種基于訓練集的自動文摘方法,首先對自動文摘中主題詞的選擇、主題句的產生、文摘的生成等關鍵技術進行了研究與分析.在此基礎上,設計出了一個自動文摘原型系統(tǒng),最后對該方法進行了實驗和評價.

        1 關鍵技術分析

        自動文摘從原始文檔中提取最精簡、最能體現(xiàn)原始文檔意思的語句,文摘的優(yōu)劣跟主題詞的選擇、主題句的選擇以及自動文摘息息相關.下面對這些關鍵技術進行介紹.

        1.1 主題詞的選擇

        本文中,主題詞的界定參照了文檔分類中特征提取的方法,通過分詞后的文檔詞匯,數(shù)量是相當大的,原始的特征空間可能由出現(xiàn)在文章中的全部詞條構成.而中文的詞條總數(shù)有二十多萬條,這樣高維的特征空間對于幾乎所有的分類算法來說都偏大[2].為了提高分類的效率和精度,在分類之前必須進行特征抽取來剔除那些表現(xiàn)力不強的詞匯.在主題詞的選擇過程中,給出如下的定義:

        定義1訓練集:由專家系統(tǒng)篩選出來的,具有某相近主題的文檔集合.本文用S來表示訓練集.

        定義2主題詞:最能代表訓練集的一些詞條.本文用T來表示主題詞.

        定義3主題詞權重:主題詞Ti在文檔中的重要程度.本文用TWi來表示第i個主題詞權重.

        符號定義:

        A:包含詞條t且屬于類別c的文檔頻數(shù).

        B:包含t但是不屬于c的文檔頻數(shù).

        C:屬于c但是不包含t的文檔頻數(shù).

        N:語料中文檔總數(shù).

        有了上面的定義后,主題詞的選擇步驟如下:

        (1)對訓練集中所有的文檔進行分詞,分詞后得到的詞條,都作為候選主題詞.

        (2)采用互信息的方法選取主題詞.互信息是信息論中的概念,它用于度量一個消息中2個信號之間的相互依賴程度[3].對于每個候選主題詞,計算候選主題詞t和訓練集類c的互信息量:

        式中:I(t,c)表示候選主題詞和類別c之間的互信息量;P(t^c)表示候選主題詞t和類別c同時出現(xiàn)的概率;p(t)表示候選主題詞t出現(xiàn)的概率;p(c)表示類別c出現(xiàn)的概率;p(t|c)表示類別c里出現(xiàn)候選主題詞的概率.

        (3)對訓練集中的所有候選主題詞,依據(jù)上面計算的互信息量進行排序.

        (4)依據(jù)詞的互信息量大小,抽取一定數(shù)量的詞作為主題詞.

        1.2 段落權重計算以及主題句選擇

        同一篇文章中,不同的段落,具有不同的重要程度,段落中所包含的主題詞數(shù)量、段落的長度,都決定著段落在整篇文檔中的重要性.此外,經過對大量文檔的觀察,我們發(fā)現(xiàn),一個句子是否能夠成為主題句,不僅與句子所在的段落的重要性有關,而且和句子的長度(SL)、句子在段落中的位置(SP)以及句子中所包含的主題詞個數(shù)(f)有著密切的聯(lián)系.

        在主題句的選擇過程中給出如下的定義:

        定義4段落:是按照中文習慣所形成的語言段落.本文用P來表示段落.

        定義5段落權重:一個段落在整篇文檔中的重要程度.本文用PW來表示段落權重.

        定義6句子:按照中文標點符號分割成的,由字、詞、詞組所組成的語言單位.本文用S來表示句子.

        定義7句子權重:句子在整篇文檔中的重要程度.本文用SW來表示句子權重.

        主題句產生的步驟如下:

        (1)對用戶提交的待摘要文檔進行段落劃分,形成段落集{P1,P2,P3…Pi…Pn}.

        (2)對段落Pi進行中文分詞,計算每個段落的權重.計算公式如下:

        式中:WTi為段落中出現(xiàn)的主題詞的權重;fi為該主題詞在段落中出現(xiàn)的頻率;PLi為段落的長度;DL為整篇文檔的長度.

        (3)計算句子SWi的權重.計算公式如下:

        式中:PW為主題詞所在段落的權重;fi為該主題詞在段落中出現(xiàn)的頻率;SL為段落的長度;PL為主題詞所在段落的長度.

        (4)對所有句子,依照權重大小進行排序,選擇權重最大的N個句子作為主題句.N的大小跟生成的文摘長度有關.

        1.3 文摘的生成

        自動文摘應該以盡可能少的文字,最大程度地體現(xiàn)原文所表達的意思.通過以上2個步驟所得到的主題句,并不能完全作為文摘提交給用戶.因為經過系統(tǒng)初步篩選出的主題句,往往具有較多的冗余信息.常見的冗余信息有以下3種:

        (1)語意相似.比如下面2個語意相似的句子:①吳文俊老師在拓撲學領域取得了豐碩的成果;②吳文俊老師在拓撲學方面獲得了驕人的成就.(2)同一主語.除了語意相似產生的信息冗余外,相鄰主題句如果主語相同,也會產生文摘的信息冗余.比如下面2個句子:

        ①吳文俊是著名的數(shù)學家,他的研究工作涉及到數(shù)學的諸多領域;

        ②吳文俊的主要成就表現(xiàn)在拓撲學和數(shù)學機械化2個領域.

        (3)過渡性詞語.在主題句里,有時會出現(xiàn)一些承上啟下的連詞或者轉折詞,這些詞條對文摘沒有任何意義,只是在原文中起到一種過渡的作用.比如:“因為”,“也就是說”,“對我來說”.

        基于以上原因,我們還要對主題句經過相似度比較并且對主題句進行壓縮,對于語意相似的句子,進行刪減;對于主語相同的相鄰主題句,保留一個主語;對于過渡性詞語,在分詞時利用停止詞表進行剔除.對主題句經過上面步驟處理后,按照主題句在原文中的順序進行輸出,最終產生較為理想的文摘.

        2 系統(tǒng)實現(xiàn)

        在上述分析的基礎上,我們采用VC++6.0開發(fā)平臺,設計出了一個自動文摘系統(tǒng)原型.本系統(tǒng)包含主題詞生成模塊、文摘生成模塊、用戶接口模塊.系統(tǒng)結構圖如圖1所示.

        圖1 自動文摘系統(tǒng)模型

        下面對系統(tǒng)中各模塊作簡要介紹:

        (1)主題詞生成模塊.從詞典數(shù)據(jù)庫里讀出詞條,按照漢字的 GBK編碼在機器內存中建立詞典.從網頁庫里依次讀出所有的主題網頁,按照最大匹配法的分詞方法(未登錄詞的識別按照統(tǒng)計的方法)對網頁進行分詞.對分詞得到的所有詞條去掉停止詞后,進行特征提取,提取出最能表現(xiàn)該領域主題的特征詞,即主題詞.

        (2)文摘生成模塊.其功能是將對用戶提交的文檔進行段落劃分,計算段落的權重,依照詞條的權重以及主題詞所在段落的權重,確定一個句子是否能成為主題句.對主題句進行冗余信息消除后,生成文摘.

        (3)用戶接口模塊.該模塊為用戶提供可視化的查詢輸入和結果輸出界面.在輸入界面中,用戶可以提交待摘取的文檔.在輸出界面中,系統(tǒng)提交給用戶較為理想的文摘.

        3 實驗結果及分析

        目前,還沒有一種很好的自動文摘的評價方法,我們采用了文獻[4]所提到的一種評價指標:主題覆蓋度,即原文中的主題內容被文摘句所覆蓋的百分比.主題覆蓋度的值可通過多個人工專家分別打分,所取得分的平均值來確定.這里假設人工專家主題覆蓋度為100%,經過實驗形成如表1所示的數(shù)據(jù).

        表1 實驗結果

        從表1可以看出,本文中的方法在時間性能上要優(yōu)于基于理解的方法,而在主題覆蓋度上又優(yōu)于機械統(tǒng)計的方法.因此,本文中所提出的方法,在提高了文摘主題覆蓋度的同時,又兼顧了時間性能,具有一定的實用性.

        4 結 語

        隨著互聯(lián)網的迅猛發(fā)展以及無紙化辦公的普及,會涌現(xiàn)出大量的電子文檔,如何快速準確地從繁多的文檔中提取“主題思想”,已經成為自動文摘需要迫切解決的一個課題.本文提出了一種基于訓練集的文摘自動生成方法,實驗結果表明,該方法所產生的主題句能夠較好地體現(xiàn)原始文檔的中心思想,能較全面地表達原文檔的內容.該系統(tǒng)生成的文摘,比較適合一些對文摘實時性要求較高,但對文摘質量不是過于苛刻的場合.

        [1]傅間蓮,陳群秀.基于規(guī)則和統(tǒng)計的中文自動文摘系統(tǒng)[J].中文信息學報,2006,20(5):10-16.

        [2]代六玲.中文文本分類中特征抽取方法的比較研究[J].中文信息學報,2004,24(1):26-32.

        [3]李粵,李星,劉輝,等.一種改進的文本網頁分類特征選擇方法[J].計算機應用,2004,24(7):119-121.

        [4]胡拍,何婷婷,姬東鴻.基于主題區(qū)域發(fā)現(xiàn)的中文自動文摘研[J].計算機應用,2005,32(1):177-181.

        Research of Automatic Abstraction Method Based on Training Set

        This paper p roposes a method of automatic abstraction based on training set.Keyword is p roduced acco rding to training set,and a new paragraph w eighting fo rmula and a new sentence impo rtance w eight formula are designed.Abstraction obtained through the elimination of redundant topic sentence.Experiments show that the system has a certain utility.

        training set;topic words;topic sentence;automatic abstraction

        CHENG Chuan-peng
        (Zhongyuan University of Technology,Zhengzhou 450007,China)

        TP391.1

        A

        10.3969/j.issn.1671-6906.2011.01.017

        1671-6906(2011)01-0062-04

        2011-01-03

        程傳鵬(1977-),男,河南鄭州人,講師,碩士.

        猜你喜歡
        詞條主題詞段落
        【短文篇】
        心理小測試
        夏天,愛情的第四段落
        散文詩(2017年17期)2018-01-31 02:34:11
        2016年4月中國直銷網絡熱門詞條榜
        2016年3月中國直銷網絡熱門詞條榜
        弄清段落關系 按圖索驥讀文
        讀寫算(下)(2016年11期)2016-05-04 03:44:07
        2016年9月中國直銷網絡熱門詞條榜
        大數(shù)據(jù)相關詞條
        我校學報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
        我校學報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞
        少妇人妻字幕一区二区| 中国无码人妻丰满熟妇啪啪软件| 麻豆网神马久久人鬼片| 黑人巨茎大战欧美白妇| 91网站在线看| 99精品国产自产在线观看| 国产精品高清亚洲精品| 三级国产自拍在线观看| 中国久久久一级特黄久久久| 色avav色av爱avav亚洲色拍| 亚洲av无码精品色午夜蛋壳| 国产乱人伦真实精品视频| 国产亚洲精品成人av在线| 韩国三级黄色一区二区| 波多野结衣绝顶大高潮| 97久久精品亚洲中文字幕无码| 久久天天躁夜夜躁狠狠躁2022 | 久久精品女同亚洲女同| 免费无码av一区二区三区| 国产亚洲精品aaaa片app| aa视频在线观看播放免费| 国产精品久色婷婷不卡| 狠狠综合久久av一区二区| 亚洲欧美日韩综合在线观看| 91极品尤物在线观看播放| 美女露出奶头扒开内裤的视频 | 久久精品国产字幕高潮| 99精品国产一区二区| 一本色道久久综合狠狠躁 | 亚洲色图视频在线观看,| 国产内射一级一片内射视频| 国产av人人夜夜澡人人爽麻豆| 日韩精品一区二区三区四区| 特级黄色大片性久久久| 人妻 日韩 欧美 综合 制服| 亚洲国产成人va在线观看天堂| 中文字幕在线久热精品| 国产黄色一区二区福利| 精品国产一区二区三区av| 亚洲熟少妇在线播放999| 亚洲AⅤ永久无码精品AA|