亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于論文關(guān)鍵詞和篇章結(jié)構(gòu)的自動文摘抽取方法

        2018-06-13 07:52:34孫曉騰李學(xué)明
        現(xiàn)代計算機(jī) 2018年13期

        孫曉騰,李學(xué)明

        (重慶大學(xué)計算機(jī)學(xué)院,重慶 400044)

        0 引言

        自動文摘技術(shù)是指利用計算機(jī)算法和程序?qū)斎胛臋n進(jìn)行分析和提取,從而產(chǎn)出文章摘要的過程。該文章摘要一般通順連貫并且可以高度概括文章主旨,當(dāng)前自動文摘主要應(yīng)用于新聞和論文領(lǐng)域[1]。

        本文主要面向論文領(lǐng)域,通過論文關(guān)鍵詞過濾掉相關(guān)性差的句子,精煉候選句子集,并通過對論文主題和結(jié)構(gòu)的分析,制定了一些影響句子重要度的規(guī)則和方法,進(jìn)而影響傳統(tǒng)TextRank算法的權(quán)重,改進(jìn)文本排序結(jié)果。改進(jìn)后的重要度排名更能反映出與主題的關(guān)聯(lián)性,提升了自動文摘的水準(zhǔn)。

        1 自動文摘研究概述

        1.1 自動文摘生成方法

        在當(dāng)前NLP研究領(lǐng)域,自動文摘根據(jù)生成原理主要分為兩大類[2],一種是抽取式的(extractive),即選取原文中的一些關(guān)鍵句,組合形成一篇摘要;另外一種是摘要式的(abstractive),即讓計算機(jī)理解原文的內(nèi)容和思想,并通過合理的語法生成新的概括句,生成文章摘要?,F(xiàn)階段相對成熟的是基于抽取的方法,這也是目前最主流、應(yīng)用最廣泛的方法。

        除此之外自動文摘還有一種根據(jù)輸入文檔數(shù)量而定的分類方式,即單文檔摘要和多文檔摘要[3]。本文提出的方法是基于抽取式的單文檔摘要的改進(jìn)算法。

        1.2 自動文摘評估方法

        如何高效且合理地評價一篇文摘的質(zhì)量也是該領(lǐng)域的研究重點(diǎn)。自動文摘的評估方法包括人工評價和自動評價兩種[4]。由于人工評價耗時長,且因?yàn)槿说闹饔^性使得評價結(jié)果因人而異,所以人工評價不完全適用于自動文摘;自動評價方法因?yàn)槠涓咝?、客觀性,成為了眾多學(xué)者研究的重點(diǎn)。

        本文使用兩種方式評估文摘的質(zhì)量:一種是通過計算自動文摘與原文摘要的相似度,計算主旨契合度來評估文摘的質(zhì)量;另一種是通過人工提取的方式生成標(biāo)準(zhǔn)文摘,計算自動文摘的準(zhǔn)確率、召回率以及FMeasure[5]值。

        2 句子的空間向量模型與關(guān)鍵詞抽取

        2.1 文本預(yù)處理和特征向量表示

        將給定文本拆分為句子集合,對句子進(jìn)行分詞得到特征項(xiàng)。由于一般句子中包含許多無意義的停用詞,直接分詞不但會降低分詞質(zhì)量,還會導(dǎo)致維度過高從而降低算法效率。所以在分詞時需要進(jìn)行文本預(yù)處理,去除停用詞和部分低頻詞[6],提升句子精度,降低特征的維度。

        經(jīng)過預(yù)處理及分詞之后的句子通過詞頻表示為各自的特征詞向量[7],然后利用相似度函數(shù)計算兩個句子的相似度,同時作為TextRank圖算法中兩句子間邊的權(quán)重。

        對給定的句子集合P,若P包含n個句子,P={S1,…,Sn},其中Si(1≤i≤n)為原文本中按先后順序出現(xiàn)的句子。對于P及各個Si有如下表示:

        (1)將P的特征詞記為swi(1≤i≤h),其中h=|Psw|為P中所有特征詞的數(shù)量。

        (2)對每一個句子Si,特征向量表示為Sih=[s w1:fi1,…,swj:fij,…,swh:fih](1≤j≤h),其中 fij為特征詞swj在句子Si中出現(xiàn)的頻數(shù)。如果特征詞swj未在句子Si中出現(xiàn),則 fij=0。

        (3)所有的Sih構(gòu)成一個用于圖計算的矩陣:其中,每一行表示文本中相應(yīng)的句子Si的特征向量Sih,每一列表示相應(yīng)的特征詞swi在各個句子中的頻數(shù)。該矩陣也是用于后續(xù)TextRank圖計算的高維稀疏矩陣。

        2.2 關(guān)鍵詞的抽取

        關(guān)鍵詞是能概括或表達(dá)論文的關(guān)鍵信息和主題的詞匯,因此除了特征詞的提取之外,關(guān)鍵詞的抽取和處理也是十分重要的[8]。在本文的改進(jìn)算法中,抽取出的關(guān)鍵詞用于辨別句子與文章主題的契合度,從而達(dá)到優(yōu)化候選句子集的目的。本文的關(guān)鍵詞抽取采用TextRank算法[9],利用局部詞間的共現(xiàn)關(guān)系進(jìn)行圖排序,選取權(quán)重排名靠前的若干詞匯作為關(guān)鍵詞。具體步驟如下:

        (1)將文本P按照完整句子進(jìn)行分割,得到句子集合 P={S1,…,Sn}。

        (2)對于集合中的每個句子Si進(jìn)行預(yù)處理,過濾掉停用詞和低頻詞,然后進(jìn)行分詞和詞性標(biāo)注處理,只保留指定詞性的單詞(本文實(shí)驗(yàn)中只保留了名詞、動詞、形容詞),進(jìn)而得到句子Si的候選關(guān)鍵詞集 Si={wi1,…,win}。

        (3)構(gòu)造候選關(guān)鍵詞的圖Gw=(V ,E ),其中V為節(jié)點(diǎn)集,由(2)生成的候選關(guān)鍵詞組成。節(jié)點(diǎn)之間的邊采用共現(xiàn)關(guān)系(co-occurrence)來構(gòu)造,如果兩個節(jié)點(diǎn)對應(yīng)的詞匯在長度為K的窗口中共現(xiàn),則存在一條無向無權(quán)的邊,若沒有共現(xiàn)則不存在。其中K為設(shè)定的窗口大小,若句子 Si={wi1,…,win},則 {wi1,…,wik}、{wi2,…,wik+1}…都是一個窗口,即最多共現(xiàn) K個關(guān)鍵詞。

        (4)基于(3)中的圖,利用TextRank算法迭代計算出每個單詞節(jié)點(diǎn)的權(quán)重作為該關(guān)鍵詞的重要度。對所有節(jié)點(diǎn)重要度進(jìn)行倒序排序,選取前t個詞匯作為關(guān)鍵詞。其中,t為選取關(guān)鍵詞數(shù)量的閾值。

        3 基于論文關(guān)鍵詞和結(jié)構(gòu)的改進(jìn)TextRank算法

        傳統(tǒng)的TextRank算法僅考慮了兩兩句子間的相似度,雖然易于實(shí)現(xiàn),但文摘的質(zhì)量也會受影響。本文在傳統(tǒng)的TextRank算法基礎(chǔ)上,基于論文關(guān)鍵詞和論文結(jié)構(gòu)進(jìn)行了兩方面改進(jìn):一是利用關(guān)鍵詞進(jìn)行無關(guān)句的過濾,對候選句子集進(jìn)行精簡;二是分析論文結(jié)構(gòu),對不同位置的句子進(jìn)行不同程度的權(quán)重增強(qiáng),提升與主旨更貼切的句子的重要度,提高文摘的整體質(zhì)量。

        3.1 算法核心思想

        (1)經(jīng)典TextRank算法

        TextRank算法是一種圖排序算法,該算法將文本劃分為若干單元,以此為結(jié)點(diǎn)構(gòu)造圖模型,利用投票機(jī)制對文本中的重要成分進(jìn)行排序[10]。

        設(shè)G=(V,E)是由文本單元組成的圖結(jié)構(gòu),V為定點(diǎn)集合,E為邊集合。WS(Vi)為頂點(diǎn)Vi的得分,迭代公式為:

        其中d為阻尼系數(shù),一般取0.85;In(Vi)為指向節(jié)點(diǎn)Vi的所有節(jié)點(diǎn)集合;Out(Vj)為節(jié)點(diǎn)Vj指向的所有節(jié)點(diǎn)集合;wji為節(jié)點(diǎn)Vj到節(jié)點(diǎn)Vi的邊的權(quán)重。

        (2)候選句子集的精煉

        通過句子分割和文本預(yù)處理得到的初始候選句子集包含了全文所有的句子,但有些句子與文章主題思想距離較遠(yuǎn),關(guān)聯(lián)度差,不適合被選為摘要的組成句,并且會提升計算的復(fù)雜度。而2.2中提取的關(guān)鍵詞集卻能很好地表達(dá)文章主旨,因此借助關(guān)鍵詞集對候選句子集進(jìn)行剪枝和精煉,提升候選句子集的精度和質(zhì)量。具體過濾規(guī)則為:

        設(shè)經(jīng)過分詞和預(yù)處理句子Si的分詞集Wi={wi1,…,win},其中n表示句子 Si的分詞數(shù)量,wij(1≤j≤n)表示Si中第 j個分詞。設(shè)文本P的關(guān)鍵詞集為Kwordsp={k ey1,…,keyt},其中t表示提取的關(guān)鍵詞數(shù)量。則句子分詞集Wi和文本關(guān)鍵詞集Kwordsp的交集稱為句子Si的相關(guān)詞集RWi,即RWi=Wi∩Kwordsp;句子Si的相關(guān)度為:

        當(dāng)Ri<δkey時,認(rèn)為句子Si與文章主題關(guān)聯(lián)度很小,此時將Si從候選句子集中刪除。

        (3)候選句子權(quán)重的增強(qiáng)

        對于一篇論文來說,文章結(jié)構(gòu)代表了嚴(yán)謹(jǐn)?shù)倪壿嫾軜?gòu),往往是十分清晰的。所以本文基于論文結(jié)構(gòu)從以下兩個方面考慮其對句子重要度的影響:

        ①句子的內(nèi)容是否契合該章節(jié)標(biāo)題和文章總標(biāo)題

        標(biāo)題是作者對于文章或章節(jié)內(nèi)容的概括和總結(jié),出現(xiàn)在各個標(biāo)題中的詞更是全文核心詞匯。某個句子與標(biāo)題的相似度越高,該句就越契合文章主題[11]?;谶@一點(diǎn),本文通過計算句子和所在章節(jié)標(biāo)題以及總標(biāo)題的相似度,對句子的重要度進(jìn)行不同程度的放大。由 2.1可知,對每一個句子 Si,特征向量表示為Sih=[sw1:fi1,…,swj:fij,…,swh:fih],記總標(biāo)題的特征詞向量為S0h=[sw1:f01,…,swj:f0j,…,swh:f0h](1≤j≤h),Si所處章節(jié)標(biāo)題的特征詞向量為Si0h=[sw1:fi01,…,swj:fi0j,…,swh:fi0h](1≤j≤h)。重要度放大因子為:

        其中max函數(shù)為取最大值函數(shù),sim函數(shù)為相似度函數(shù),一般采用向量夾角的余弦值計算得出。另外,由于論文中許多章節(jié)標(biāo)題過于通用和寬泛(如“引言”、“實(shí)驗(yàn)結(jié)果”、“結(jié)束語”等),無法體現(xiàn)與主題的相關(guān)性,故在計算過程中,相似度應(yīng)取章節(jié)標(biāo)題和文章總標(biāo)題兩者中較大的值。

        ②句子是否處在該章節(jié)和全文的關(guān)鍵位置

        美國RE.Baxendale的研究結(jié)果[12]表明,人工摘要中,選取段首句和段尾句的概率十分高;另外康奈爾大學(xué)的G.Salton也指出[13],文章中的首尾段以及承上啟下的段落也常被提取作為摘要使用。基于這一點(diǎn),本文根據(jù)句子在所處章節(jié)中的位置,對重要度進(jìn)行不同程度的放大。在預(yù)處理階段,記錄每個句子序號并標(biāo)記對應(yīng)的段落,最終通過判定該句是否為特殊位置句來決定是否疊加影響因子。對每個句子針對句子Si的基于位置的重要度放大因子為:

        其中特殊位置包括五種:段首句、段尾句、章節(jié)首段句、章節(jié)末段句、獨(dú)立成段句,flagi(1≤i≤5)為這五種特殊位置的判定標(biāo)記,若判定成功,flagi=1,否則flagi=0;δi(1≤i≤5)為這五種特殊位置的影響因子。

        3.2 算法實(shí)現(xiàn)和流程概述

        算法整體的流程如圖1所示:

        圖1 算法整體的流程圖

        結(jié)合圖1,整體的計算過程如下:

        (1)對輸入文本T進(jìn)行預(yù)處理,去除停用詞和低頻詞,并對句子和所在段落進(jìn)行標(biāo)記,記錄每一個章節(jié)的標(biāo)題。

        (2)進(jìn)行分詞,構(gòu)造文本T的特征向量矩陣Dn×h。

        (3)利用2.2的方法和步驟提取文章關(guān)鍵詞。

        (4)由式(2)計算句子相關(guān)度,去除相關(guān)性小的句子,得到精煉后的候選句子集。

        (5)計算候選句子集中句子間的相似度,構(gòu)造TextRank網(wǎng)絡(luò)圖G。

        (6)由式(1)進(jìn)行圖G的迭代計算,不斷更新權(quán)值,直到收斂。

        (7)由式(3)、式(4),計算放大因子,對得到的重要度排名進(jìn)行更新。

        (8)取排名前t個句子,得到自動文摘的句子集Aa。

        (9)按照原文出現(xiàn)的順序輸出Aa中的句子,得到最終的摘要。

        3.3 實(shí)驗(yàn)結(jié)果及分析

        為了對比基于關(guān)鍵詞和結(jié)構(gòu)改進(jìn)的TextRank算法與傳統(tǒng)TextRank算法的性能,本節(jié)設(shè)計了兩個實(shí)驗(yàn):實(shí)驗(yàn)一以原論文作者編寫的摘要部分作為標(biāo)準(zhǔn)文摘,計算自動文摘與標(biāo)準(zhǔn)文摘的相似度,以此對比分析算法性能。實(shí)驗(yàn)二是從實(shí)驗(yàn)一的論文素材中選取一部分進(jìn)行人工文摘的抽取,通過計算平均準(zhǔn)確率、平均召回率和F-measure值對比分析算法性能。

        (1)實(shí)驗(yàn)一:

        由于研究面向論文領(lǐng)域,而論文的摘要則是作者人工編寫所得,具有高度概括文章中心主旨的特點(diǎn),十分利于評估自動文摘的質(zhì)量。但由于摘要并未人工抽取而是重新編寫,所以無法計算準(zhǔn)確率和召回率,本實(shí)驗(yàn)通過計算兩者的相似度來作對比。

        首先通過網(wǎng)絡(luò)下載包含生物、經(jīng)濟(jì)、文學(xué)、科技等多領(lǐng)域的論文50篇,按正文順序篩選和標(biāo)記各個標(biāo)題、段落和句子。正文長度分布如圖2所示。

        圖2 文本段落個數(shù)分布圖

        設(shè)定生成文摘的句子數(shù)為原文摘的句子數(shù)t,原文摘Am={Sm1,Sm2,…,Smt},自動文摘 Aa={Sa1,Sa2,…,Sat} 。則自動文摘和原文摘的相似度為:算法和實(shí)驗(yàn)中的主要參數(shù)值設(shè)置如表1所示。

        表1 實(shí)驗(yàn)參數(shù)表

        相似度實(shí)驗(yàn)結(jié)果如表2所示:

        表2 實(shí)驗(yàn)一相似度結(jié)果對比

        分析表2結(jié)果可知,本文改進(jìn)的TextRank算法相對于傳統(tǒng)TextRank算法更加有效,生成文摘的質(zhì)量更高,能更好地概括文章主題思想。除此之外,兩種算法的精確度隨著文本長度的增加,會有不同程度的下降,但傳統(tǒng)TextRank算法下降更加明顯。通過對一些實(shí)驗(yàn)數(shù)據(jù)的人工觀察發(fā)現(xiàn),當(dāng)文本長度增加時,候選句子數(shù)增多,通過關(guān)鍵字過濾掉相關(guān)性差的句子這一剪枝措施有較為明顯的效果。

        (2)實(shí)驗(yàn)二:

        目前,將人工摘要作為標(biāo)準(zhǔn)摘要去計算準(zhǔn)確率和召回率是自動文摘領(lǐng)域較為普遍的評價方法。由于本實(shí)驗(yàn)素材和語料中不含人工摘要,需要人工提取,而這個過程通常比較耗時。所以在實(shí)驗(yàn)二中,采用實(shí)驗(yàn)一的50篇論文素材,從中選取一小部分(15篇)來生成人工摘要,通過計算準(zhǔn)確率(P)、召回率(R)和F-measure值對比分析文摘性能。設(shè)人工文摘句子集為Am={Sm1,Sm2,…,Smt},自 動 文 摘 句 子 集Aa={Sa1,Sa2,…,Sat}。具體計算公式如下:

        表3 實(shí)驗(yàn)二結(jié)果對比

        分析表3結(jié)果可知,本文改進(jìn)后的算法相比傳統(tǒng)的TextRank算法具有更高的準(zhǔn)確率、召回率和F-Measure值,說明使用關(guān)鍵詞精簡候選句子集,并考慮標(biāo)題契合度和句子位置進(jìn)行權(quán)重提升之后,所生成的自動文摘更接近人工文摘的結(jié)果。這也是因?yàn)?,本文所提出的?guī)則和影響因素,正是從人為提取的角度去思考得出的經(jīng)驗(yàn)性規(guī)則,而本實(shí)驗(yàn)也證明了這些規(guī)則是合理且有效的。

        4 結(jié)語

        在自動文摘研究領(lǐng)域,如何使句子抽取更加符合人工篩選的思維是研究的熱點(diǎn)和重點(diǎn)。本文在傳統(tǒng)TextRank算法的基礎(chǔ)上,加入了候選句子集精煉和特殊句權(quán)重增強(qiáng)兩個過程,利用關(guān)鍵詞和文章標(biāo)題結(jié)構(gòu)等信息對算法進(jìn)行了優(yōu)化,使之更加符合人工生成摘要時的思路。實(shí)驗(yàn)結(jié)果也表明,算法改進(jìn)后生成的文摘質(zhì)量有了一定程度的提高。

        本文也存在一些不足之處:本文以論文為研究對象,研究語料和素材有一定特殊性,由于論文往往具有結(jié)構(gòu)的嚴(yán)謹(jǐn)性,所以得到了不錯的實(shí)驗(yàn)效果。該方法能否在新聞、評論、文學(xué)作品等其他領(lǐng)域具有不錯的普適性,還有待研究和確認(rèn),而這些也是下一步的工作和研究重點(diǎn)。

        [1]郭燕慧,鐘義信,馬志勇,等.自動文摘綜述[J].情報學(xué)報,2002,21(5):582-591.

        [2]衛(wèi)佳君,宋繼華.自動文摘的方法研究[J].計算機(jī)技術(shù)與發(fā)展,2011,21(8):188-191.

        [3]胡俠,林曄,王燦,等.自動文本摘要技術(shù)綜述[J].情報雜志,2010,29(8):144-147.

        [4]Jones K S.Automatic Summarising:Factors and Directions[C].Cambridge MA:MIT press:1998.

        [5]張瑾,王小磊,許洪波.自動文摘評價方法綜述[J].中文信息學(xué)報,2008,22(3):81-88.

        [6]劉紅芝.中文分詞技術(shù)的研究[J].電腦開發(fā)與應(yīng)用,2010,23(3):1-3.

        [7]劉海燕,張鈺,LIU Hai-yan,等.基于LexRank的中文單文檔摘要方法[J].兵器裝備工程學(xué)報,2017(6):85-89.

        [8]蔣效宇.基于關(guān)鍵詞抽取的自動文摘算法[J].計算機(jī)工程,2012,38(3):183-186.

        [9]張莉婧,李業(yè)麗,曾慶濤,等.基于改進(jìn)TextRank的關(guān)鍵詞抽取算法[J].北京印刷學(xué)院學(xué)報,2016,24(4):51-55.

        [10]Mihalcea R,Tarau P.TextRank:Bringing Order into Texts[J].Emnlp,2004:404-411.

        [11]余珊珊,蘇錦鈿,李鵬飛.基于改進(jìn)的TextRank的自動摘要提取方法[J].計算機(jī)科學(xué),2016,43(6):240-247.

        [12]Baxendale P B.Machine-Made Index for Technical Literature:an Experiment[M].IBM Corp.1958.

        [13]Salton G,Wong A,Yang C S.A Vector Space Model for Automatic Indexing[J].Communications of the ACM,1974,18(11):613-620.

        中文字幕人妻丝袜成熟乱| 青青草极品视频在线播放| 久久精品国产亚洲av一| 美女很黄很色国产av| 欧美丰满熟妇xxxx性| 国产精品多人P群无码| 水蜜桃视频在线观看免费18| 精品国产一区二区三区av免费| 黑人巨大精品欧美一区二区免费| 国产成人精品一区二区视频| 五月天婷婷一区二区三区久久| 亚洲国产精品自拍成人| 国内精品久久久人妻中文字幕 | 国产色在线 | 亚洲| 有码精品一二区在线| 国产精品一区二区日韩精品| 在线播放草猛免费视频| 亚洲中文字幕在线第二页| 99热这里只有精品4| 国产视频在线播放亚洲| 国产精品婷婷久久爽一下| 永久免费av无码网站yy| 国产午夜激无码AV毛片不卡| 日本一区二区三区高清视| 免费无码av片在线观看播放| 亚洲视频在线看| 精品国产麻豆一区二区三区| av高清在线不卡直播| 东北寡妇特级毛片免费| 亚洲天堂av免费在线看| 日韩av一区二区不卡在线| 真实国产精品vr专区| 亚洲免费观看| 国产精品高清一区二区三区人妖| 亚洲国产成人精品无码区在线播放 | 午夜少妇高潮在线观看视频| 亚洲人成无码区在线观看| 高清在线亚洲中文精品视频| 亚洲一区二区日韩在线| 国产a级毛片久久久精品毛片| 日本巨大的奶头在线观看|