劉柏清
(河南省平頂山市魯山縣第一高級(jí)中學(xué) 467300)
多文檔自動(dòng)文摘綜述
劉柏清
(河南省平頂山市魯山縣第一高級(jí)中學(xué) 467300)
隨著社會(huì)發(fā)展進(jìn)入信息時(shí)代,海量信息的到來,自動(dòng)文摘技術(shù)的誕生和發(fā)展為人們進(jìn)行文獻(xiàn)處理提供了便利。本文主要介紹了自動(dòng)文摘技術(shù)的誕生背景及多文檔自動(dòng)文摘的定義,并就目前主要的多文檔自動(dòng)文摘技術(shù)方法做了介紹和簡要分析。
多文檔自動(dòng)文摘;自然語言處理;情報(bào)科學(xué)
當(dāng)今信息時(shí)代的一大特點(diǎn)是信息爆炸,信息數(shù)量呈現(xiàn)指數(shù)級(jí)增長趨勢,但是噪聲和冗余信息也相應(yīng)的增多。為了獲取有用的信息,對信息的進(jìn)一步加工處理就尤為重要。如何讓用戶直接獲取同一主題下經(jīng)過提煉和濃縮并能全面概括該主題下各方面主要信息的簡要信息,多文檔摘要成為解決這一困境的方法之一。
多文檔集合是同一主題下不同文檔的集合,各文檔包含的信息雖然與主題相關(guān)但并不相同,其中也具有較多的重復(fù)信息和冗余信息。以多文檔集合為處理對象的自動(dòng)文摘技術(shù)稱為多文檔自動(dòng)文摘。其目的是將多文檔集合中重復(fù)和冗余的信息進(jìn)行合理的凝練、整合和抽取,生成一篇能充分表達(dá)該主題的文摘,以方便用戶快速準(zhǔn)確地獲取該文檔集合表達(dá)的主題信息。
相比較而言,多文檔集合的冗余信息更多,句子的時(shí)序和邏輯矛盾甚至是相反信息的處理更為復(fù)雜。但與單文檔自動(dòng)文摘相似,多文檔自動(dòng)文摘也需要對文本進(jìn)行分析和理解。因此,可以利用單文檔自動(dòng)文摘的方法對多文檔集合進(jìn)行初步的聚類處理,然后將多文檔集合作為一個(gè)文本根據(jù)文本的形式特征,如詞頻、標(biāo)題、位置、句法結(jié)構(gòu)、提示詞、指示性短語等,抽取文本單元。換句話說,多文檔摘要技術(shù)可以看作是單文檔文摘技術(shù)的擴(kuò)展。
多文檔自動(dòng)文摘方法的研究最早在20世紀(jì)80年代開始,國內(nèi)外相關(guān)的研究不勝枚舉,但基本沿襲了單文檔自動(dòng)文摘,經(jīng)歷幾十年的研究,按照摘要的生成方式大致可以分為以下兩類:
(1)抽取式,即摘要中的內(nèi)容都是從原文中直接抽取現(xiàn)成的句子。此類方式下常用的方法有兩種:基于統(tǒng)計(jì)的自動(dòng)文摘和基于結(jié)構(gòu)的自動(dòng)文摘。①基于統(tǒng)計(jì)的自動(dòng)文摘此方法也稱自動(dòng)摘錄,其核心思想是以處理線性序列的方式處理文本,即將文本視為句子的線性序列,將句子視為詞的線性序列。在處理過程中,首先對輸入到計(jì)算機(jī)的原始文本進(jìn)行詞頻統(tǒng)計(jì),并根據(jù)詞頻賦予詞一定的權(quán)重。然后根據(jù)句子中包含的詞的情況計(jì)算句子的權(quán)重。在確定句子的權(quán)重之后,對所有句子按照權(quán)值高低降序排列,選取權(quán)值較高的若干句子作為文摘句輸出,形成文摘;②基于結(jié)構(gòu)的自動(dòng)文摘又稱基于多文檔集合特征的自動(dòng)文摘方法,即將多文檔集合作為一個(gè)整體進(jìn)行研究,將其視為多文檔集合中句子的關(guān)聯(lián)網(wǎng)絡(luò),按照句義進(jìn)行聚類,然后從中抽取文摘句。
(2)生成式,即摘要中的內(nèi)容并非全部來自原文,也包括原文中沒有出現(xiàn)的詞或句子。生成式的方法對自然語言處理技術(shù)要求非常高,此類方式下,目前常用的方法有兩種:基于理解的自動(dòng)文摘和基于信息抽取的自動(dòng)文摘。①基于理解的自動(dòng)文摘是以自然語言處理技術(shù)為核心,借助一定的分析工具和方法,在對文本進(jìn)行語法結(jié)構(gòu)分析的同時(shí),結(jié)合背景領(lǐng)域知識(shí),通過一定的推理判斷,得到文摘句的語義描述,根據(jù)語義描述自動(dòng)生成摘要。其中,最重要的環(huán)節(jié)包括語法分析、語義分析和句法分析,這種方法采用了復(fù)雜的自然語言理解和生成技術(shù),對文獻(xiàn)意義把握更準(zhǔn)確,因此生成的摘要更接近人工處理的摘要水平,質(zhì)量較好,具有簡潔精練、全面準(zhǔn)確、可讀性強(qiáng)等優(yōu)點(diǎn)。但該方法需要對文章進(jìn)行全面的分析,生成詳盡的語義表達(dá),還需要事先表達(dá)和組織各種背景、領(lǐng)域知識(shí),這對于大規(guī)模真實(shí)文本處理來說難度巨大。因此,目前這種方法的應(yīng)用領(lǐng)域十分局限;②基于信息抽取的自動(dòng)文摘是將自然語言處理技術(shù)與信息抽取技術(shù)結(jié)合,并基于人工制定的模板而實(shí)現(xiàn)的,相比于單純基于自然語言理解的自動(dòng)文摘技術(shù),基于信息抽取的自動(dòng)文摘方法只需要對部分文本進(jìn)行有限深度的分析,具有較高的效率和更強(qiáng)的靈活性。但是人工制定模板需要較大的人力,并且不易更新,僅適用于特定領(lǐng)域,不宜推廣,且利用模板生成的文摘語言千篇一律,十分呆板。目前該方法的發(fā)展方向是融合單文檔自動(dòng)文摘技術(shù),研究自動(dòng)獲取模板的方法,但是這要求計(jì)算機(jī)進(jìn)行較多的語料學(xué)習(xí),且可以預(yù)見到該方法最終生成的文摘會(huì)存在較多的語法問題。
從紛繁復(fù)雜的信息中提煉出有用的信息是一項(xiàng)極富挑戰(zhàn)性的工作。盡管單文檔文摘的研究已經(jīng)進(jìn)行了幾十年,但多文檔自動(dòng)文摘技術(shù)目前還是一個(gè)相對較新的研究領(lǐng)域,對于該技術(shù)的研究,無論是對于文獻(xiàn)處理,還是搜索技術(shù)的發(fā)展,都具有重要意義。目前,學(xué)界主要的研究精力集中于對已有方法的細(xì)化和改進(jìn)。但是也應(yīng)看到,“自動(dòng)文摘的研究是跨學(xué)科領(lǐng)域的,它的誕生源于情報(bào)科學(xué)發(fā)展的需要,它的發(fā)展受到語言學(xué)、人工智能、數(shù)學(xué)和邏輯學(xué)的影響?!倍辔臋n自動(dòng)文摘脫胎于自動(dòng)文摘技術(shù),因此與各學(xué)科的發(fā)展進(jìn)步密不可分。而多文檔自動(dòng)文摘技術(shù)的進(jìn)步也將反哺各學(xué)科的發(fā)展。
[1]馬慧芳,祁云平,楊小東.一種基于文本關(guān)系圖的多文檔自動(dòng)摘要技術(shù)[J].情報(bào)雜志,2007,26(3):67~69.
[2]劉德喜,何炎祥,姬東鴻,等.一種基于演化算法進(jìn)行句子抽取的多文檔自動(dòng)摘要系統(tǒng) SBGA[J].中文信息學(xué)報(bào),2006,20(6):48~55.
[3]程娟.中文文檔自動(dòng)摘要技術(shù)[D].山東大學(xué),2006.
[4]秦 兵,劉 挺,李 生.多文檔自動(dòng)文摘綜述[J].中文信息學(xué)報(bào),2005,19(6):15~22,58.
[5]曹 洋,成 穎,裴 雷.基于機(jī)器學(xué)習(xí)的自動(dòng)文摘研究綜述[J].圖書情報(bào)工作,2014,58(18):122~130.
TP391.1
A
1004-7344(2016)36-0268-01
2016-11-20
劉柏清(1999-),漢族,魯山一高高三學(xué)生,學(xué)習(xí)成績優(yōu)異,愛好鉆研理工科類課題。