亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主題模型與冗余控制的中文多文檔自動(dòng)文摘技術(shù)研究

        2017-07-18 11:48:46袁龍?jiān)?/span>張琳
        現(xiàn)代計(jì)算機(jī) 2017年14期
        關(guān)鍵詞:冗余度概率分布文摘

        袁龍?jiān)?,張?/p>

        (上海海事大學(xué)信息工程學(xué)院,上海 201306)

        基于主題模型與冗余控制的中文多文檔自動(dòng)文摘技術(shù)研究

        袁龍?jiān)?,張?/p>

        (上海海事大學(xué)信息工程學(xué)院,上海 201306)

        多文檔自動(dòng)文摘技術(shù)能夠幫助人們從海量的信息中提取到重要的信息,已經(jīng)成為自然語(yǔ)言處理領(lǐng)域的熱點(diǎn)技術(shù)。多文檔摘要的質(zhì)量與抽取出句子具有的代表性和文摘句之間的冗余性密切相關(guān)。將主題模型LDA與冗余控制技術(shù)相結(jié)合組成LDA-RC系統(tǒng),在保持文摘代表性的同時(shí)有效地降低文摘的信息冗余度。

        多文檔摘要;LDA主題模型;冗余控制

        0 引言

        隨著互聯(lián)網(wǎng)技術(shù)的飛快發(fā)展,互聯(lián)網(wǎng)上的信息量與日俱增,人們能夠在海量的信息中獲取到有用的信息尤為重要,因此出現(xiàn)了多文檔自動(dòng)文摘技術(shù)。多文檔自動(dòng)文摘技術(shù)是從各個(gè)文本中抽取共同的主題的中心句子,來(lái)組成文檔集合的摘要。多文檔自動(dòng)文摘技術(shù)更加注重提取的文摘句是否能夠代表文檔集合的主題,各個(gè)文摘句之間是否存在冗余的信息。因此,文摘句的代表性和信息之間的冗余程度決定了文摘質(zhì)量的優(yōu)劣程度。

        在英文多文本摘要中,代表性的系統(tǒng)包括NeATS[1]和Hub/Authority[2]。NeATS使用三個(gè)過(guò)濾器來(lái)提取摘要:句子位置過(guò)濾器、Stigma詞過(guò)濾器和最大邊界相關(guān)性過(guò)濾器。其中最大邊界相關(guān)性過(guò)濾器處理句子冗余度。一個(gè)句子只有在其與已有摘要的詞重疊度小于某個(gè)閾值才會(huì)被加入到摘要中。但是這種冗余度去除方法相對(duì)粗糙。Hub/Authority主要特點(diǎn)是能夠通過(guò)句子聚類(lèi)處理子主題的多文本摘要。但是Hub/Authority在冗余度上并沒(méi)有突出優(yōu)勢(shì)。

        國(guó)內(nèi)關(guān)于中文多文檔自動(dòng)文摘技術(shù)主要的研究包括基于規(guī)則和統(tǒng)計(jì)的策略[3],基于篇章的文摘策略[4],基于句子抽取的策略[5],基于圖的策略[6]等。國(guó)外相關(guān)的研究文獻(xiàn)[7,8]表明,通常在英文自動(dòng)文摘技術(shù)中使用主題模型,Arora等[7]使用LDA主題模型,將每個(gè)文檔中的每一個(gè)句子來(lái)對(duì)應(yīng)文檔中所關(guān)聯(lián)的主題,然后將單詞的權(quán)重矩陣表示為每一個(gè)主題,使用奇異值分解的方法來(lái)求句子集合中的正交形式,以此來(lái)減少文摘句的冗余信息。國(guó)內(nèi),吳曉峰[9]等將LDA主題模型抽取的主題作為特征,加入到CRF模型中進(jìn)行訓(xùn)練,有效地提高了CRF文摘系統(tǒng)的質(zhì)量。

        本文將LDA-RC系統(tǒng)進(jìn)行多文檔文摘句的提取,通過(guò)LDA主題模型來(lái)提取文檔集合中的主題特征信息,加入冗余控制模型來(lái)減少信息的冗余度,LDA-RC系統(tǒng)是一種處理多文檔自動(dòng)文摘的淺層語(yǔ)義系統(tǒng)。

        1 基于主題模型與冗余控制的多文檔自動(dòng)文摘技術(shù)

        1.1 基本框架

        本文的多文本摘要算法基本框架如圖1所示。其中Ti表示文檔的第i個(gè)的主題。Si,j表示文檔第i個(gè)主題對(duì)應(yīng)的文檔內(nèi)容中第j個(gè)句子。經(jīng)過(guò)主題模型提取,每個(gè)主題找到了對(duì)應(yīng)文檔中句子的集合。經(jīng)過(guò)冗余技術(shù)處理之后,冗余的句子被刪除,主題對(duì)應(yīng)文本句子數(shù)有所減少。所以a1大于bk。

        圖1 多文本摘要流程圖

        1.2 主題模型

        主題模型主要運(yùn)用到機(jī)器學(xué)習(xí)和自然處理領(lǐng)域中。一般而言,如果一篇文檔中很頻繁地出現(xiàn)某些特定的詞語(yǔ),那么這些特定的詞語(yǔ)通常圍繞著文章的中心思想而出現(xiàn)的。使用主題模型來(lái)得到文本集合中詞語(yǔ)出現(xiàn)頻率的高低,來(lái)分析文本集合中所包含的主題有哪些,并且計(jì)算出每一個(gè)主題所占的比例。

        LDA模型是包含了詞、主題和文檔三層的結(jié)構(gòu),并且采用了詞袋的方法只考慮每個(gè)詞出現(xiàn)的次數(shù),而不考慮詞之間出現(xiàn)的位置關(guān)系。每篇文檔都是由每個(gè)詞組成的,每個(gè)詞都能歸結(jié)到文檔中的某個(gè)主題思想,并且每篇文檔可以含有多個(gè)淺層的主題。例如,每篇文檔d含有一個(gè)詞序列{w1,w2,…,wn}。假設(shè)文檔集合有K個(gè)主題,使用LDA模型生成一篇文檔d,算法如下:

        其中,參數(shù)θ是一個(gè)主題向量;p(θ)是θ的Dirichlet分布;N表示文檔中所包含的單詞個(gè)數(shù);wn表示生成的第n個(gè)單詞w;zn是選擇的任意一個(gè)主題,p(z|θ)是主題z的條件概率分布,其值為p(z=i|θ)=θi;p(w|z)是單詞w的條件概率分布,通過(guò)這個(gè)概率分布,在已知主題的條件下可以生成該主題下所對(duì)應(yīng)的單詞。LDA概率模型如圖2所示:

        主題分布θd;詞語(yǔ)的集合wi是在主題的結(jié)果中反復(fù)抽取得到的。本文的生成概率模型:

        圖2 LDA概率模型圖

        將其中的w作為觀察的變量,θ和z當(dāng)做隱藏變量,可以通過(guò)EM算法學(xué)習(xí)處α和β。

        1.3 冗余控制

        由于通過(guò)主題模型不能有效地控制生成的文摘句的冗余度,所有引入了冗余控制技術(shù)。在冗余控制模型中我們通過(guò)代表性、信息性和多樣性三個(gè)方面進(jìn)生成文摘句行冗余度的控制。本文冗余控制模型的評(píng)價(jià)函數(shù)定義為:

        其中λi為衡量各個(gè)文本單元之間的相似度ki的權(quán)值,k1、k2和k3分別代表著文檔集合與當(dāng)前文摘的相似度,文檔集合與當(dāng)前句子S的相似度,當(dāng)前文摘與當(dāng)前句子S的相似度。通過(guò)計(jì)算評(píng)價(jià)函數(shù)的值來(lái)判斷當(dāng)前句子是否加入擴(kuò)充文摘句中,冗余控制模型圖3所示。

        1.4 相似度計(jì)算

        在圖3所示的冗余控制模型中,我們要根據(jù)計(jì)算文本單元之間的相似度的值來(lái)決定當(dāng)前句子是否加入擴(kuò)充文摘句中。通過(guò)計(jì)算文本集合中的各個(gè)文本在主題上的概率分布來(lái)得到各個(gè)文本之間的相似度。。以下為文檔集合中任意兩個(gè)文本單元m和n元之間的相似度計(jì)算:

        圖3 冗余控制模型

        其中,Pm和Pn分別表示文本單元m和n的在它們各自文本主題上的概率分布n,兩個(gè)概率分布之間的KL散度值計(jì)算如下:

        通過(guò)DKL(Pm||Pn)DKL(Pn||Pm)的對(duì)稱(chēng)性,來(lái)保證KL散度值的對(duì)稱(chēng)性,從而保證了兩個(gè)文本單元之間相似度的對(duì)稱(chēng)性。

        2 文摘生成

        使用傳統(tǒng)的方法來(lái)生成文摘句方法是通過(guò)對(duì)抽取的句子進(jìn)行打分,從分值的高低來(lái)組合成文摘句。而加入用冗余控制模型后,需要不停地計(jì)算其他文本單元與當(dāng)前句子之間的相似度的得分,逐步的擴(kuò)充文摘,這是一個(gè)動(dòng)態(tài)的過(guò)程。

        使用LDA-RC系統(tǒng)生成文摘的過(guò)程如下:

        (1)首先運(yùn)行LDA模型,得到主題z的條件概率分布p(z|d)和單詞w的條件概率分布p(w|z),計(jì)算句子得分并排序;

        (2)選取得分最高的句子作為當(dāng)前的文摘;

        (3)將該句子和當(dāng)前文摘組合形成文摘,并計(jì)算文摘與各文本單元之間的相似度;

        (4)使用評(píng)價(jià)函數(shù)計(jì)算,將得分最高的句子加入到文摘中,形成擴(kuò)充文摘;

        (5)循環(huán)第三步和第四步,直到滿(mǎn)足要求。

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)設(shè)置

        本文的實(shí)驗(yàn)數(shù)據(jù)采用來(lái)自于互聯(lián)網(wǎng)上的新聞報(bào)道,涉及到體育、經(jīng)濟(jì)、歷史等,所有數(shù)據(jù)被劃分成17個(gè)文檔的集合,并且每個(gè)集合中包含了5-10篇文檔,每個(gè)集合中所包含的文檔都存在這一個(gè)共同的主題。

        本文主要根據(jù)經(jīng)驗(yàn)和英文語(yǔ)料上的使用結(jié)果來(lái)設(shè)置冗余控制模型評(píng)價(jià)函數(shù)中權(quán)值λi為:λ1=0.4,λ2=1.5,λ3=-0.1。在下一步工作中,我們通過(guò)實(shí)驗(yàn)來(lái)確定評(píng)價(jià)函數(shù)中的權(quán)值。

        我們采用準(zhǔn)確度、冗余度和總體的質(zhì)量三個(gè)標(biāo)準(zhǔn)來(lái)評(píng)價(jià)文摘系統(tǒng)的質(zhì)量,來(lái)解決在傳統(tǒng)多文檔自動(dòng)文摘評(píng)測(cè)時(shí),文檔集合中出現(xiàn)多個(gè)可以替換的文摘句的問(wèn)題,計(jì)算公式如下:

        準(zhǔn)確率計(jì)算公式如下:

        冗余度計(jì)算公式如下:

        綜合質(zhì)量計(jì)算公式如下:

        其中,K是待評(píng)測(cè)文摘的句子總數(shù)。k1是標(biāo)準(zhǔn)的文摘句在所要待評(píng)測(cè)文摘句中出現(xiàn)的句子的數(shù)目。我們通過(guò)手工標(biāo)注的方法得到ωi是每個(gè)句子的權(quán)值;準(zhǔn)(si,sj)是判斷Si與Sj是否為同一類(lèi)型的文摘句,如果為同類(lèi)型的則其值為1,否則為0。

        3.2 實(shí)驗(yàn)結(jié)果

        在預(yù)處理階段,本文使用了ICTCLAS2016系統(tǒng)進(jìn)行中文分詞處理,本文實(shí)驗(yàn)的三項(xiàng)指標(biāo)按照5句,10句和20句文摘長(zhǎng)度來(lái)測(cè)試的。M1是使用的LDA主題模型進(jìn)行評(píng)測(cè)的。M2是采用LDA-RC系統(tǒng)進(jìn)行評(píng)測(cè)得出的結(jié)果。從表1與表2的結(jié)果可以看出,采用冗余控制模型后,文摘句的冗余程度明顯降低,說(shuō)明冗余控制模型的有效性。

        表1 M1系統(tǒng)性能

        表2 M2系統(tǒng)性能

        圖4 不同主題數(shù)下的準(zhǔn)確率

        4 結(jié)語(yǔ)

        本文提出了LDA-RC系統(tǒng)運(yùn)用到多文檔自動(dòng)文摘中,得到了比較好的結(jié)果。該模型計(jì)算了各個(gè)文本單元之間的相似度,包括了句子與當(dāng)前文摘和文檔集合之間的相似度,以及文檔集合與當(dāng)前文摘之間的相似度。本實(shí)驗(yàn)結(jié)果表明LDA-RC系統(tǒng)能夠在保證摘要信息代表性的同時(shí)有效地控制自動(dòng)文摘的信息冗余度。

        本系統(tǒng)在文摘句的抽取時(shí),傾向于抽取長(zhǎng)句,影響了系統(tǒng)的性能,在下一步的工作中對(duì)抽取出的文摘句進(jìn)行壓縮控制,進(jìn)一步提升系統(tǒng)的性能。

        [1]Chin-Yew Lin,Eduard Hovy.From Single to Multidocument Summarization:A Prototype System and its Evaluation.Proceedings of the ACLConference,pp.457-464.Philadelphia,PA.2002.

        [2]Junlin Zhanq,Le Sun,Quan Zhou.A Cue-Based Hub-Authority Approach for Multi-Document Text Summarization.in Proceeding of NLP-KE'05,IEEE,642-645,2005

        [3]傅間蓮,陳群秀.基于規(guī)則和統(tǒng)計(jì)的中文自動(dòng)文摘系統(tǒng)[J].中文信息學(xué)報(bào),2006,20(6):10-16.

        [4]徐永東,徐志明,王曉龍.基于信息融合的多文檔自動(dòng)文摘技術(shù)[J].計(jì)算機(jī)學(xué)報(bào),2007,30(11):2048-2054.

        [5]劉德喜,何炎祥,姬東鴻,等.一種基于演化算法進(jìn)行句子抽取的多文檔自動(dòng)摘要系統(tǒng)SBGA[J].中文信息學(xué)報(bào),2006,20(6):14-20.

        [6]馬慧芳,祁云平,楊小東.一種基于文本關(guān)系圖的多文檔自動(dòng)文摘技術(shù)[J].情報(bào)學(xué)報(bào),2007,23(3):67-69.

        [7]Arora R.Latent Dirichlet Allocation Based Multi-Document Summarization[C].Proceeding of the 2nd Workshop on Analytics for Noisy Unstructured Text Data,2008:91-97.

        [8]Bhandari H,Shimbo M,Ito T,et al.Generic Text Summarization Using Probabilistic Latent Semantic Indexing[C].Proceeding of IJCNLP,2008:133-140.

        [9]吳曉峰,宗成慶.一種基于LDA的CRF自動(dòng)文摘方法[J].中文信息學(xué)報(bào),2009,23(6):39-45

        Research on Automatic Text Summarization Technology Based on Topic Model and Redundancy Control

        YUAN Long-yun,ZHANG Lin

        (College of Information Engineering,ShanghaiMaritime University,Shanghai 201306)

        Multi-document summarization can help people to access important information in themassive information,which is the hotspot of natural language processing research.The quality ofmulti-document summarization is closely related to the redundancy and the representation of the sentence.Proposes the LDA-RC system which is composed of the topicmodel LDA and the redundant control technology.

        袁龍?jiān)疲?991-),男,江蘇興化人,碩士研究生,研究方向?yàn)樾畔⑻幚砼c模式識(shí)別

        2017-02-20

        2017-05-12

        1007-1423(2017)14-0044-05

        10.3969/j.issn.1007-1423.2017.14.009

        張琳(1973-),女,博士,副教授,研究方向?yàn)楦酆叫畔⒒夹g(shù)、智能信息處理、信息檢索、本體與知識(shí)工程等

        Multi-Document Summarization;LDA Topic Model;Redundant Control

        猜你喜歡
        冗余度概率分布文摘
        一種航天測(cè)控冗余跟蹤弧段處理方法
        上海航天(2024年1期)2024-03-08 02:52:28
        離散型概率分布的ORB圖像特征點(diǎn)誤匹配剔除算法
        IAPA文摘
        上海某基坑工程考慮冗余度的支撐體系設(shè)計(jì)
        山西建筑(2017年29期)2017-11-15 02:04:38
        橋梁設(shè)計(jì)的冗余度分析
        關(guān)于概率分布函數(shù)定義的辨析
        科技視界(2016年19期)2017-05-18 10:18:46
        文摘
        寶藏(2017年2期)2017-03-20 13:16:46
        基于概率分布的PPP項(xiàng)目風(fēng)險(xiǎn)承擔(dān)支出測(cè)算
        橋梁設(shè)計(jì)的冗余度
        一種相依極小P值統(tǒng)計(jì)量概率分布的近似計(jì)算方法
        日韩av无码一区二区三区| 精品系列无码一区二区三区| 日韩伦理av一区二区三区| 日本高清一级二级三级| 亚洲欧美国产国产综合一区| 在线国产小视频| 日韩精品极品视频在线观看蜜桃| 亚洲天堂久久午夜福利| 国产农村熟妇videos| 亚洲妇女水蜜桃av网网站| 亚洲一区二区三区免费av在线| 日本女优激情四射中文字幕| 东京热无码av一区二区| 99久久久无码国产精品9| 强d乱码中文字幕熟女1000部| 日本一区二区三区四区高清不卡| 任我爽精品视频在线播放| 正在播放一区| 日本在线中文字幕一区| 无遮挡很爽很污很黄的女同| 在线综合亚洲欧洲综合网站| 欧美日韩国产亚洲一区二区三区| 中国av一区二区三区四区| 中文字幕无码成人片| 中文字幕人妻丝袜乱一区三区| 国产一区二区欧美丝袜| 一级一片内射视频网址| 永久黄网站色视频免费看| 国产特级全黄一级毛片不卡| 国产一区亚洲一区二区| 99精品国产在热久久无毒不卡| 99久久亚洲精品无码毛片| 亚洲五月七月丁香缴情| 第一九区另类中文字幕| 成人毛片无码一区二区三区| 欧美成人在线A免费观看| 美女福利视频在线观看网址| 免费av一区二区三区无码 | 亚洲国产成人AV人片久久网站| 精品女人一区二区三区| 97se亚洲国产综合在线|