亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

多文檔自動(dòng)文摘綜述

2016-07-13 07:58:07劉柏清

大科技 2016年36期

關(guān)鍵詞：文摘文檔自動(dòng)

劉柏清

（河南省平頂山市魯山縣第一高級(jí)中學(xué) 467300）

多文檔自動(dòng)文摘綜述

劉柏清

（河南省平頂山市魯山縣第一高級(jí)中學(xué) 467300）

隨著社會(huì)發(fā)展進(jìn)入信息時(shí)代，海量信息的到來，自動(dòng)文摘技術(shù)的誕生和發(fā)展為人們進(jìn)行文獻(xiàn)處理提供了便利。本文主要介紹了自動(dòng)文摘技術(shù)的誕生背景及多文檔自動(dòng)文摘的定義，并就目前主要的多文檔自動(dòng)文摘技術(shù)方法做了介紹和簡要分析。

多文檔自動(dòng)文摘；自然語言處理；情報(bào)科學(xué)

當(dāng)今信息時(shí)代的一大特點(diǎn)是信息爆炸，信息數(shù)量呈現(xiàn)指數(shù)級(jí)增長趨勢，但是噪聲和冗余信息也相應(yīng)的增多。為了獲取有用的信息，對信息的進(jìn)一步加工處理就尤為重要。如何讓用戶直接獲取同一主題下經(jīng)過提煉和濃縮并能全面概括該主題下各方面主要信息的簡要信息，多文檔摘要成為解決這一困境的方法之一。

1 多文檔文摘的定義

多文檔集合是同一主題下不同文檔的集合，各文檔包含的信息雖然與主題相關(guān)但并不相同，其中也具有較多的重復(fù)信息和冗余信息。以多文檔集合為處理對象的自動(dòng)文摘技術(shù)稱為多文檔自動(dòng)文摘。其目的是將多文檔集合中重復(fù)和冗余的信息進(jìn)行合理的凝練、整合和抽取，生成一篇能充分表達(dá)該主題的文摘，以方便用戶快速準(zhǔn)確地獲取該文檔集合表達(dá)的主題信息。

相比較而言，多文檔集合的冗余信息更多，句子的時(shí)序和邏輯矛盾甚至是相反信息的處理更為復(fù)雜。但與單文檔自動(dòng)文摘相似，多文檔自動(dòng)文摘也需要對文本進(jìn)行分析和理解。因此，可以利用單文檔自動(dòng)文摘的方法對多文檔集合進(jìn)行初步的聚類處理，然后將多文檔集合作為一個(gè)文本根據(jù)文本的形式特征，如詞頻、標(biāo)題、位置、句法結(jié)構(gòu)、提示詞、指示性短語等，抽取文本單元。換句話說，多文檔摘要技術(shù)可以看作是單文檔文摘技術(shù)的擴(kuò)展。

2 研究現(xiàn)狀

多文檔自動(dòng)文摘方法的研究最早在20世紀(jì)80年代開始，國內(nèi)外相關(guān)的研究不勝枚舉，但基本沿襲了單文檔自動(dòng)文摘，經(jīng)歷幾十年的研究，按照摘要的生成方式大致可以分為以下兩類：

（1）抽取式，即摘要中的內(nèi)容都是從原文中直接抽取現(xiàn)成的句子。此類方式下常用的方法有兩種：基于統(tǒng)計(jì)的自動(dòng)文摘和基于結(jié)構(gòu)的自動(dòng)文摘。①基于統(tǒng)計(jì)的自動(dòng)文摘此方法也稱自動(dòng)摘錄，其核心思想是以處理線性序列的方式處理文本，即將文本視為句子的線性序列，將句子視為詞的線性序列。在處理過程中，首先對輸入到計(jì)算機(jī)的原始文本進(jìn)行詞頻統(tǒng)計(jì)，并根據(jù)詞頻賦予詞一定的權(quán)重。然后根據(jù)句子中包含的詞的情況計(jì)算句子的權(quán)重。在確定句子的權(quán)重之后，對所有句子按照權(quán)值高低降序排列，選取權(quán)值較高的若干句子作為文摘句輸出，形成文摘；②基于結(jié)構(gòu)的自動(dòng)文摘又稱基于多文檔集合特征的自動(dòng)文摘方法，即將多文檔集合作為一個(gè)整體進(jìn)行研究，將其視為多文檔集合中句子的關(guān)聯(lián)網(wǎng)絡(luò)，按照句義進(jìn)行聚類，然后從中抽取文摘句。

（2）生成式，即摘要中的內(nèi)容并非全部來自原文，也包括原文中沒有出現(xiàn)的詞或句子。生成式的方法對自然語言處理技術(shù)要求非常高，此類方式下，目前常用的方法有兩種：基于理解的自動(dòng)文摘和基于信息抽取的自動(dòng)文摘。①基于理解的自動(dòng)文摘是以自然語言處理技術(shù)為核心，借助一定的分析工具和方法，在對文本進(jìn)行語法結(jié)構(gòu)分析的同時(shí)，結(jié)合背景領(lǐng)域知識(shí)，通過一定的推理判斷，得到文摘句的語義描述，根據(jù)語義描述自動(dòng)生成摘要。其中，最重要的環(huán)節(jié)包括語法分析、語義分析和句法分析，這種方法采用了復(fù)雜的自然語言理解和生成技術(shù)，對文獻(xiàn)意義把握更準(zhǔn)確，因此生成的摘要更接近人工處理的摘要水平，質(zhì)量較好，具有簡潔精練、全面準(zhǔn)確、可讀性強(qiáng)等優(yōu)點(diǎn)。但該方法需要對文章進(jìn)行全面的分析，生成詳盡的語義表達(dá)，還需要事先表達(dá)和組織各種背景、領(lǐng)域知識(shí)，這對于大規(guī)模真實(shí)文本處理來說難度巨大。因此，目前這種方法的應(yīng)用領(lǐng)域十分局限；②基于信息抽取的自動(dòng)文摘是將自然語言處理技術(shù)與信息抽取技術(shù)結(jié)合，并基于人工制定的模板而實(shí)現(xiàn)的，相比于單純基于自然語言理解的自動(dòng)文摘技術(shù)，基于信息抽取的自動(dòng)文摘方法只需要對部分文本進(jìn)行有限深度的分析，具有較高的效率和更強(qiáng)的靈活性。但是人工制定模板需要較大的人力，并且不易更新，僅適用于特定領(lǐng)域，不宜推廣，且利用模板生成的文摘語言千篇一律，十分呆板。目前該方法的發(fā)展方向是融合單文檔自動(dòng)文摘技術(shù)，研究自動(dòng)獲取模板的方法，但是這要求計(jì)算機(jī)進(jìn)行較多的語料學(xué)習(xí)，且可以預(yù)見到該方法最終生成的文摘會(huì)存在較多的語法問題。

3 總結(jié)

從紛繁復(fù)雜的信息中提煉出有用的信息是一項(xiàng)極富挑戰(zhàn)性的工作。盡管單文檔文摘的研究已經(jīng)進(jìn)行了幾十年，但多文檔自動(dòng)文摘技術(shù)目前還是一個(gè)相對較新的研究領(lǐng)域，對于該技術(shù)的研究，無論是對于文獻(xiàn)處理，還是搜索技術(shù)的發(fā)展，都具有重要意義。目前，學(xué)界主要的研究精力集中于對已有方法的細(xì)化和改進(jìn)。但是也應(yīng)看到，“自動(dòng)文摘的研究是跨學(xué)科領(lǐng)域的，它的誕生源于情報(bào)科學(xué)發(fā)展的需要，它的發(fā)展受到語言學(xué)、人工智能、數(shù)學(xué)和邏輯學(xué)的影響?！倍辔臋n自動(dòng)文摘脫胎于自動(dòng)文摘技術(shù)，因此與各學(xué)科的發(fā)展進(jìn)步密不可分。而多文檔自動(dòng)文摘技術(shù)的進(jìn)步也將反哺各學(xué)科的發(fā)展。

[1]馬慧芳，祁云平，楊小東.一種基于文本關(guān)系圖的多文檔自動(dòng)摘要技術(shù)[J].情報(bào)雜志，2007，26（3）：67～69.

[2]劉德喜，何炎祥，姬東鴻，等.一種基于演化算法進(jìn)行句子抽取的多文檔自動(dòng)摘要系統(tǒng) SBGA[J].中文信息學(xué)報(bào)，2006，20（6）：48～55.

[3]程娟.中文文檔自動(dòng)摘要技術(shù)[D].山東大學(xué)，2006.

[4]秦兵，劉挺，李生.多文檔自動(dòng)文摘綜述[J].中文信息學(xué)報(bào)，2005，19（6）：15～22，58.

[5]曹洋，成穎，裴雷.基于機(jī)器學(xué)習(xí)的自動(dòng)文摘研究綜述[J].圖書情報(bào)工作，2014，58（18）：122～130.

TP391.1

1004-7344（2016）36-0268-01

2016-11-20

劉柏清（1999-），漢族，魯山一高高三學(xué)生，學(xué)習(xí)成績優(yōu)異，愛好鉆研理工科類課題。