亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多文檔自動(dòng)文摘綜述

        2016-07-13 07:58:07劉柏清
        大科技 2016年36期
        關(guān)鍵詞:文摘文檔自動(dòng)

        劉柏清

        (河南省平頂山市魯山縣第一高級(jí)中學(xué) 467300)

        多文檔自動(dòng)文摘綜述

        劉柏清

        (河南省平頂山市魯山縣第一高級(jí)中學(xué) 467300)

        隨著社會(huì)發(fā)展進(jìn)入信息時(shí)代,海量信息的到來,自動(dòng)文摘技術(shù)的誕生和發(fā)展為人們進(jìn)行文獻(xiàn)處理提供了便利。本文主要介紹了自動(dòng)文摘技術(shù)的誕生背景及多文檔自動(dòng)文摘的定義,并就目前主要的多文檔自動(dòng)文摘技術(shù)方法做了介紹和簡要分析。

        多文檔自動(dòng)文摘;自然語言處理;情報(bào)科學(xué)

        當(dāng)今信息時(shí)代的一大特點(diǎn)是信息爆炸,信息數(shù)量呈現(xiàn)指數(shù)級(jí)增長趨勢,但是噪聲和冗余信息也相應(yīng)的增多。為了獲取有用的信息,對信息的進(jìn)一步加工處理就尤為重要。如何讓用戶直接獲取同一主題下經(jīng)過提煉和濃縮并能全面概括該主題下各方面主要信息的簡要信息,多文檔摘要成為解決這一困境的方法之一。

        1 多文檔文摘的定義

        多文檔集合是同一主題下不同文檔的集合,各文檔包含的信息雖然與主題相關(guān)但并不相同,其中也具有較多的重復(fù)信息和冗余信息。以多文檔集合為處理對象的自動(dòng)文摘技術(shù)稱為多文檔自動(dòng)文摘。其目的是將多文檔集合中重復(fù)和冗余的信息進(jìn)行合理的凝練、整合和抽取,生成一篇能充分表達(dá)該主題的文摘,以方便用戶快速準(zhǔn)確地獲取該文檔集合表達(dá)的主題信息。

        相比較而言,多文檔集合的冗余信息更多,句子的時(shí)序和邏輯矛盾甚至是相反信息的處理更為復(fù)雜。但與單文檔自動(dòng)文摘相似,多文檔自動(dòng)文摘也需要對文本進(jìn)行分析和理解。因此,可以利用單文檔自動(dòng)文摘的方法對多文檔集合進(jìn)行初步的聚類處理,然后將多文檔集合作為一個(gè)文本根據(jù)文本的形式特征,如詞頻、標(biāo)題、位置、句法結(jié)構(gòu)、提示詞、指示性短語等,抽取文本單元。換句話說,多文檔摘要技術(shù)可以看作是單文檔文摘技術(shù)的擴(kuò)展。

        2 研究現(xiàn)狀

        多文檔自動(dòng)文摘方法的研究最早在20世紀(jì)80年代開始,國內(nèi)外相關(guān)的研究不勝枚舉,但基本沿襲了單文檔自動(dòng)文摘,經(jīng)歷幾十年的研究,按照摘要的生成方式大致可以分為以下兩類:

        (1)抽取式,即摘要中的內(nèi)容都是從原文中直接抽取現(xiàn)成的句子。此類方式下常用的方法有兩種:基于統(tǒng)計(jì)的自動(dòng)文摘和基于結(jié)構(gòu)的自動(dòng)文摘。①基于統(tǒng)計(jì)的自動(dòng)文摘此方法也稱自動(dòng)摘錄,其核心思想是以處理線性序列的方式處理文本,即將文本視為句子的線性序列,將句子視為詞的線性序列。在處理過程中,首先對輸入到計(jì)算機(jī)的原始文本進(jìn)行詞頻統(tǒng)計(jì),并根據(jù)詞頻賦予詞一定的權(quán)重。然后根據(jù)句子中包含的詞的情況計(jì)算句子的權(quán)重。在確定句子的權(quán)重之后,對所有句子按照權(quán)值高低降序排列,選取權(quán)值較高的若干句子作為文摘句輸出,形成文摘;②基于結(jié)構(gòu)的自動(dòng)文摘又稱基于多文檔集合特征的自動(dòng)文摘方法,即將多文檔集合作為一個(gè)整體進(jìn)行研究,將其視為多文檔集合中句子的關(guān)聯(lián)網(wǎng)絡(luò),按照句義進(jìn)行聚類,然后從中抽取文摘句。

        (2)生成式,即摘要中的內(nèi)容并非全部來自原文,也包括原文中沒有出現(xiàn)的詞或句子。生成式的方法對自然語言處理技術(shù)要求非常高,此類方式下,目前常用的方法有兩種:基于理解的自動(dòng)文摘和基于信息抽取的自動(dòng)文摘。①基于理解的自動(dòng)文摘是以自然語言處理技術(shù)為核心,借助一定的分析工具和方法,在對文本進(jìn)行語法結(jié)構(gòu)分析的同時(shí),結(jié)合背景領(lǐng)域知識(shí),通過一定的推理判斷,得到文摘句的語義描述,根據(jù)語義描述自動(dòng)生成摘要。其中,最重要的環(huán)節(jié)包括語法分析、語義分析和句法分析,這種方法采用了復(fù)雜的自然語言理解和生成技術(shù),對文獻(xiàn)意義把握更準(zhǔn)確,因此生成的摘要更接近人工處理的摘要水平,質(zhì)量較好,具有簡潔精練、全面準(zhǔn)確、可讀性強(qiáng)等優(yōu)點(diǎn)。但該方法需要對文章進(jìn)行全面的分析,生成詳盡的語義表達(dá),還需要事先表達(dá)和組織各種背景、領(lǐng)域知識(shí),這對于大規(guī)模真實(shí)文本處理來說難度巨大。因此,目前這種方法的應(yīng)用領(lǐng)域十分局限;②基于信息抽取的自動(dòng)文摘是將自然語言處理技術(shù)與信息抽取技術(shù)結(jié)合,并基于人工制定的模板而實(shí)現(xiàn)的,相比于單純基于自然語言理解的自動(dòng)文摘技術(shù),基于信息抽取的自動(dòng)文摘方法只需要對部分文本進(jìn)行有限深度的分析,具有較高的效率和更強(qiáng)的靈活性。但是人工制定模板需要較大的人力,并且不易更新,僅適用于特定領(lǐng)域,不宜推廣,且利用模板生成的文摘語言千篇一律,十分呆板。目前該方法的發(fā)展方向是融合單文檔自動(dòng)文摘技術(shù),研究自動(dòng)獲取模板的方法,但是這要求計(jì)算機(jī)進(jìn)行較多的語料學(xué)習(xí),且可以預(yù)見到該方法最終生成的文摘會(huì)存在較多的語法問題。

        3 總結(jié)

        從紛繁復(fù)雜的信息中提煉出有用的信息是一項(xiàng)極富挑戰(zhàn)性的工作。盡管單文檔文摘的研究已經(jīng)進(jìn)行了幾十年,但多文檔自動(dòng)文摘技術(shù)目前還是一個(gè)相對較新的研究領(lǐng)域,對于該技術(shù)的研究,無論是對于文獻(xiàn)處理,還是搜索技術(shù)的發(fā)展,都具有重要意義。目前,學(xué)界主要的研究精力集中于對已有方法的細(xì)化和改進(jìn)。但是也應(yīng)看到,“自動(dòng)文摘的研究是跨學(xué)科領(lǐng)域的,它的誕生源于情報(bào)科學(xué)發(fā)展的需要,它的發(fā)展受到語言學(xué)、人工智能、數(shù)學(xué)和邏輯學(xué)的影響?!倍辔臋n自動(dòng)文摘脫胎于自動(dòng)文摘技術(shù),因此與各學(xué)科的發(fā)展進(jìn)步密不可分。而多文檔自動(dòng)文摘技術(shù)的進(jìn)步也將反哺各學(xué)科的發(fā)展。

        [1]馬慧芳,祁云平,楊小東.一種基于文本關(guān)系圖的多文檔自動(dòng)摘要技術(shù)[J].情報(bào)雜志,2007,26(3):67~69.

        [2]劉德喜,何炎祥,姬東鴻,等.一種基于演化算法進(jìn)行句子抽取的多文檔自動(dòng)摘要系統(tǒng) SBGA[J].中文信息學(xué)報(bào),2006,20(6):48~55.

        [3]程娟.中文文檔自動(dòng)摘要技術(shù)[D].山東大學(xué),2006.

        [4]秦 兵,劉 挺,李 生.多文檔自動(dòng)文摘綜述[J].中文信息學(xué)報(bào),2005,19(6):15~22,58.

        [5]曹 洋,成 穎,裴 雷.基于機(jī)器學(xué)習(xí)的自動(dòng)文摘研究綜述[J].圖書情報(bào)工作,2014,58(18):122~130.

        TP391.1

        A

        1004-7344(2016)36-0268-01

        2016-11-20

        劉柏清(1999-),漢族,魯山一高高三學(xué)生,學(xué)習(xí)成績優(yōu)異,愛好鉆研理工科類課題。

        猜你喜歡
        文摘文檔自動(dòng)
        有人一聲不吭向你扔了個(gè)文檔
        IAPA文摘
        自動(dòng)捕盜機(jī)
        基于STM32的自動(dòng)喂養(yǎng)機(jī)控制系統(tǒng)
        電子測試(2018年10期)2018-06-26 05:53:36
        文摘
        寶藏(2017年2期)2017-03-20 13:16:46
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        關(guān)于自動(dòng)駕駛
        汽車博覽(2016年9期)2016-10-18 13:05:41
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        Stefan Greiner:我們?yōu)槭裁葱枰詣?dòng)駕駛?
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        www夜片内射视频在观看视频| 风间由美中文字幕在线| 一群黑人大战亚裔女在线播放| 夫妇交换刺激做爰视频| 亚洲久热无码av中文字幕| 亚洲AV综合久久九九| 国产精品久久中文字幕第一页 | 又色又爽又黄的视频软件app| 久久久久久久久毛片精品| 国产成人久久精品一区二区三区| 国产精品久久久久影院| 又色又爽又黄又硬的视频免费观看| 午夜精品一区二区三区在线观看| 精品久久久久88久久久| 插入中文字幕在线一区二区三区| 亚洲精品女同在线观看| 亚洲白嫩少妇在线喷水 | 精品国产高清a毛片| 亚洲国产av剧一区二区三区| 粗一硬一长一进一爽一a视频| 国产丝袜美腿嫩模视频诱惑| 国产黄色三级一区二区三区四区| 亚洲最大中文字幕在线| 波多野结衣在线播放| 帮老师解开蕾丝奶罩吸乳网站| 免费国产黄网站在线观看 | 亚洲日韩中文字幕在线播放| 日日摸日日碰夜夜爽无码| www插插插无码免费视频网站 | 精品视频在线观看一区二区三区| 在线亚洲精品国产成人二区| 午夜少妇高潮在线观看视频| 国产91传媒一区二区三区| 真实的国产乱xxxx在线| 国产福利酱国产一区二区| 国产日韩欧美亚洲精品中字| 亚洲国产福利成人一区二区| 91中文在线九色视频| 国产自产二区三区精品| 亚洲国产av无码精品| 久久精品欧美日韩精品|