亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多重映射的自動中文短文摘提取方法

        2016-12-21 11:06:37劉一波
        電子技術(shù)與軟件工程 2016年20期

        摘 要 中文短文摘提取時受其字?jǐn)?shù)限制,難以獲得均衡的提取性能。針對該問題,本文提出了一種基于多重映射的自動短文摘提取方法。

        【關(guān)鍵詞】自動短文摘提取方法 字?jǐn)?shù)限制 提取性能

        自動文摘技術(shù)是處理海量信息的重要手段,可以幫助人們高效地獲取信息。自動文摘用計(jì)算機(jī)自動生成全面反映文獻(xiàn)中心內(nèi)容的摘要。從其生成策略看,自動文摘分為生成式和抽取式兩類。生成式文摘基于自然語言理解和生成技術(shù)。抽取式文摘通過預(yù)定義的特征集,選取原文的句子形成文摘。

        1 多重映射規(guī)則定義

        本文采用抽取式方法進(jìn)行中文短文摘的提取。為抽取反映文本中心內(nèi)容的句子,需對句子進(jìn)行特征提取。由于單一特征難以獲得高召回率,本文基于傳統(tǒng)文摘的常用特征,提出了一種多重映射方法。

        1.1 句子關(guān)聯(lián)度映射規(guī)則Hst

        本文考慮文摘是最能表達(dá)文本主題的句子集,因此,可計(jì)算句子與文本的關(guān)聯(lián)度,提取關(guān)聯(lián)度高的句子作為文摘的候選句子集。

        設(shè)有文本D={S1,S2,…,Sn},其中Sk={tk1,tk2,…,tkn}為其任意句子,tkr為Sk的詞項(xiàng)。本文認(rèn)為句子Sk與D的關(guān)聯(lián)度越大,句子Sk對D的隸屬度越強(qiáng),則Sk越具代表性。由此,將句子Sk與文本D的關(guān)聯(lián)度計(jì)算看成是分類問題。結(jié)合樸素貝葉斯多項(xiàng)式模型,本文將Sk與D的關(guān)聯(lián)度參數(shù)Wst(Sk,D)定義為:Sk相對于D的后驗(yàn)概率,由此得到關(guān)聯(lián)度值計(jì)算如式(1)所示:

        其中,P(Sk)為Sk在D中的先驗(yàn)概率,tf(tkr,Sk)為詞項(xiàng)tkr在Sk中的頻度,P(tkr|D) 為詞項(xiàng)tkr在D中的條件概率,其計(jì)算如式(2)所示:

        考慮任一句子在文本中出現(xiàn)的概率均等,令P(sk)=1,由此將式(1)改寫為式(3):

        對任意Sk∈D,通過式(3)計(jì)算其與D的后驗(yàn)概率,得到Sk與D的關(guān)聯(lián)度值Wst(Sk,D)。通過設(shè)定閾值α,選取Wst(Sk,D)大于α的句子作為候選文摘句子集。本文將長度小于或等于5的句子稱為特短句,長度大于110的句子稱為特長句,對文本D的句子Sk,通過式(4)計(jì)算其長度映射值:

        其中,len是句子Sk中包含的字符數(shù)。通過設(shè)置閾值β,使長度小于β的較短句獲得較大映射值。

        1.2 位置映射規(guī)則Hp

        現(xiàn)有研究表明,文本的首段與尾段句往往蘊(yùn)含更多主題信息,人工摘要中85%的句子為段首句,7%為段尾句。結(jié)合現(xiàn)有文摘技術(shù)對位置特征的用法,本文對任意文本D,設(shè)置其句子Sk的位置映射值計(jì)算如式(6)所示:

        由此定義位置映射規(guī)則Hp如下:

        映射規(guī)則Hp:

        令映射集

        for each Sk in D

        計(jì)算Wp(Sk)

        if Wp(sk) > 0

        endif

        endfor

        規(guī)則Hp拋棄了所有非段首、段尾句,對形成的映射集Hp(S),在后續(xù)多重映射階段,優(yōu)先選取位置映射值大的句子。

        1.3 長度映射規(guī)則Hl

        本文將長度小于或等于5的句子稱為特短句,長度大于110的句子稱為特長句,對文本D的句子Sk,通過式(4)計(jì)算其長度映射值:

        其中,len是句子Sk中包含的字符數(shù)。通過設(shè)置閾值β,使長度小于β的較短句獲得較大映射值。由此定義長度映射規(guī)則Hl如下:

        映射規(guī)則Hl:

        令映射集

        for each Sk in D

        計(jì)算Wl(Sk)

        if Wl(Sk) > 0

        endif

        endfor

        1.4 標(biāo)題相似度規(guī)則Ht

        本文用余弦夾角作為句子與標(biāo)題的相似度。以詞頻作為詞的權(quán)重,設(shè)句子向量 Sk={wk1,wk2,…,wkm},標(biāo)題向量t={t1,t2,…,tm},相似度計(jì)算如式(5)所示:

        (5)

        由此定義標(biāo)題相似度映射規(guī)則Ht如下:

        映射規(guī)則Ht:

        令映射集

        for each Sk in D

        計(jì)算sim(Sk,t)

        if sim(Sk,t) >γ

        endif

        endfor

        通過設(shè)置閾值γ,可獲得不同大小的映射集作為候選句子集。

        2 多重映射方法

        多重映射方法如圖1所示。

        如圖1所示,對句子集S={s1,s2,…,sn},多重映射(Multiple MAPPing,MM)包含4種映射:關(guān)聯(lián)度映射Hst,標(biāo)題相似度映射Ht,位置映射Hp,長度映射Hl,R為最終提取到的文摘句子集。以映射集為頂點(diǎn),邊(Hm,Hn)表示映射集,由此得到圖2的映射關(guān)系圖。

        映射關(guān)系可能為完全圖(圖2(a)),也可能非連通(圖2(b))。對此需在多重映射中運(yùn)用不同策略。

        結(jié)合前述的多種映射規(guī)則,對任意文本,可得到其句子的多種映射值。在現(xiàn)有文摘提取方法中,有將映射值作為權(quán)重,通過多映射值加權(quán)求和給句子打分,再根據(jù)分?jǐn)?shù)排序來進(jìn)行句子提取。本文將這種方法作為Baseline,同時提出多重映射的方法,再通過多重映射從多個候選句子集中提取出文摘句子集。下面進(jìn)行了詳細(xì)描述:

        設(shè)待提取文摘文本為d,S={s1,s2,…,sn}是d的句子集。構(gòu)造任意句子si的結(jié)構(gòu)如下:si(wst, wt, wp, wl, score)

        其中,wst, wt, wp, wl分別表示si的幾種映射值,score表示si在各映射集中出現(xiàn)的總頻度。由此,分別計(jì)算S的多種映射值,得到:

        S={si(wst, wt, wp, wl, score) }i=1…n

        調(diào)整各映射值的閾值,對S應(yīng)用前述規(guī)則,生成多個映射集,分別為Hst(S),Ht(S),Hp(S),Hl(S)。再對S進(jìn)行聚類,得到中心句子集Hc(S)。設(shè)最終提取到的文摘句子集為R,多重映射的目標(biāo)是從上述多映射集中提取文摘句子集R。設(shè)LEN為待提取文摘的長度,多重映射算法如算法1所示:

        算法1:

        初始化,令句子序列SS為空

        令文摘句子集:

        令文摘長度summLen = 0

        BEGIN

        ① for each si in Hst(S)or Ht(S)or Hp(S)or Hl(S)

        SS = SS.add(si)

        endfor

        ② for each si in SS

        si.score = si在SS中重復(fù)出現(xiàn)的次數(shù)

        endfor

        ③ 去除SS中的重復(fù)句

        ④ for each si in SS

        if si.score == 4

        summLen = summLen + lenof(si)

        SS = SS.delete(si)

        endif

        endfor

        ⑥ 生成句子序列SK

        SK = Sort SS on si.score, si.wt, si.wst, si.wp, si.wl

        ⑦ sen=1

        ⑧ while(sen <= lenof(SK))

        si = SK.get(sen)

        if(summLen + lenof(si) < LEN)

        去除R的冗余句、進(jìn)行同義短詞替換

        summLen = summLen + lenof(si)

        endif

        sen = sen + 1

        endwhile

        ⑨ 對R按句子在文本中出現(xiàn)的位置排序,取總長度最接近LEN的前n個句子,作為文摘。

        END

        算法的第④步處理了映射關(guān)系為完全圖的情況。第⑥步處理了非完全圖的情況。在對SS排序時,按關(guān)鍵字為句子頻度、標(biāo)題相似度、文本關(guān)聯(lián)度、位置、句子長度的次序進(jìn)行排序。這種對關(guān)鍵字的排列順序,是本文根據(jù)單一映射規(guī)則下的文摘質(zhì)量排序所得。

        3 結(jié)束語

        針對中文自動短文摘抽取問題,本文提出了基于多重映射的提取方法。本文從特征值計(jì)算方法、多映射規(guī)則協(xié)同策略的角度,討論了如何提高短文摘的提取性能。實(shí)際上,短文摘的提取效果還極大地依賴于文本分詞及去冗余等操作。另外,本文方法很大程度依賴于多參數(shù)設(shè)置,盡管參數(shù)選取有一定規(guī)律可循,但總體來看,參數(shù)設(shè)置仍帶有強(qiáng)烈的啟發(fā)式特征。下一步將針對上述問題,結(jié)合短文摘的特征提取策略展開進(jìn)一步研究。

        參考文獻(xiàn)

        [1]蔣效宇.基于關(guān)鍵詞抽取的自動文摘算法[J].計(jì)算機(jī)工程,2012,38(03):183-186.

        [2]曹洋,成穎,裴雷.基于機(jī)器學(xué)習(xí)的自動文摘研究綜述[J].圖書情報工作,2014,58(18):122-130.

        [3]黃長偉.自動文摘技術(shù)研究現(xiàn)狀分析[J].科技之窗,2011(07):150-151.

        [4]傅間蓮,陳群秀.基于規(guī)則和統(tǒng)計(jì)的中文自動文摘系統(tǒng)[J].中文信息學(xué)報,2006, 20(05):10-16.

        作者簡介

        劉一波(1975-),女,湖南省新邵縣人。大學(xué)本科學(xué)歷?,F(xiàn)為海軍南海工程設(shè)計(jì)院工程師。主要研究方向?yàn)橛?jì)算機(jī)。

        作者單位

        海軍南海工程設(shè)計(jì)院 廣東省湛江市 524000

        成人片黄网站色大片免费观看app| 中文字幕一区二区三区乱码人妻 | 亚洲自拍偷拍一区二区三区 | 久久一区二区av毛片国产| 国产av一区二区三区无码野战| 人妻av乱片av出轨| 国产精品青草视频免费播放| 久久精品国产一区二区涩涩| 久草手机视频在线观看| av综合网男人的天堂| 亚洲男同志gay 片可播放| 久草视频在线这里只有精品| 中文字幕综合一区二区三区| 久久久久久久久毛片精品| 免费人成年小说在线观看| 国产9 9在线 | 免费| 亚洲男同免费视频网站| 无码熟妇人妻av影音先锋| 欧美疯狂做受xxxxx高潮| 国产亚洲精品日韩香蕉网| av在线播放亚洲天堂| 无码人妻丰满熟妇区五十路| 亚洲av无码专区亚洲av| 成人自拍视频国产一区| 国内嫩模自拍偷拍视频| 国产又色又爽又高潮免费视频麻豆 | 国产一区二区三区四区五区加勒比| a毛片全部免费播放| 亚洲妇女av一区二区| 亚洲国产性夜夜综合另类| 亚洲第一页综合图片自拍| 亚洲婷婷丁香激情| 骚货人妻视频中文字幕| 国产精品无码一区二区三区在| 国产亚洲av综合人人澡精品| 亚洲an日韩专区在线| 人妻少妇中文字幕av| 伊人久久精品无码av一区| 99热久久这里只精品国产www| 久久99精品久久久久久国产人妖| 日韩精品中文字幕第二页 |