亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        動(dòng)態(tài)流形方法在多文檔文摘模型上的應(yīng)用

        2018-03-20 09:10:16劉美玲鄭德權(quán)王慧強(qiáng)
        關(guān)鍵詞:排序特征信息

        劉美玲,鄭德權(quán),王慧強(qiáng),于 洋

        (1.東北林業(yè)大學(xué) 信息與計(jì)算機(jī)工程學(xué)院,黑龍江 哈爾濱 150040;2.哈爾濱工業(yè)大學(xué) 教育部-微軟語(yǔ)言語(yǔ)音重點(diǎn)實(shí)驗(yàn)室,黑龍江 哈爾濱 150001;3.哈爾濱工程大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001)

        0 引 言

        在Web2.0時(shí)代,網(wǎng)絡(luò)上的各種新聞、論壇、博客、在線聊天等信息跟靜態(tài)網(wǎng)頁(yè)信息相比體現(xiàn)出非常明顯的動(dòng)態(tài)演化性。網(wǎng)絡(luò)信息隨著時(shí)間的變化而出現(xiàn)、發(fā)展直至消亡,一個(gè)話題在不同的時(shí)刻具有不同的側(cè)重點(diǎn),而不同時(shí)刻的話題內(nèi)容之間具有關(guān)聯(lián)性,如何針對(duì)這類(lèi)持續(xù)發(fā)展變化的話題或者事件提供動(dòng)態(tài)摘要已經(jīng)成為一個(gè)新的研究方向。

        傳統(tǒng)的多文檔文摘[1]技術(shù)是一種靜態(tài)文摘,即針對(duì)某個(gè)封閉的靜態(tài)文檔集生成摘要,不考慮文檔集的對(duì)外聯(lián)系。動(dòng)態(tài)文摘是傳統(tǒng)靜態(tài)文摘的延伸和擴(kuò)展,除了需要保證文摘信息的主題相關(guān)性和內(nèi)容的低冗余性之外,還需要針對(duì)內(nèi)容的動(dòng)態(tài)演化性分析已出現(xiàn)信息和新出現(xiàn)信息的關(guān)系,使文摘隨話題的演化而動(dòng)態(tài)更新。動(dòng)態(tài)文摘與靜態(tài)文摘的最大區(qū)別在于分析已出現(xiàn)信息和新出現(xiàn)信息的關(guān)系,從而對(duì)內(nèi)容的動(dòng)態(tài)演化性進(jìn)行建模。

        TAC2008的評(píng)測(cè)任務(wù)中Update Summarization作為文摘研究的標(biāo)準(zhǔn)備受關(guān)注,文中對(duì)動(dòng)態(tài)多文檔文摘?jiǎng)討B(tài)演化的內(nèi)容選擇問(wèn)題展開(kāi)進(jìn)一步的研究。流形排序(manifold-ranking)是經(jīng)典的排序方法,之前在話題相關(guān)文摘中的應(yīng)用效果不錯(cuò),但該方法并不能捕捉時(shí)間片進(jìn)化的信息。文中以動(dòng)態(tài)信息的模擬演化為目標(biāo),通過(guò)建立動(dòng)態(tài)流形排序模型來(lái)為動(dòng)態(tài)多文檔文摘話題相關(guān)的內(nèi)容選擇提供重要性排序。

        提出了一種動(dòng)態(tài)流形排序模型(dynamic manifold ranking model,DMRM),將其用于動(dòng)態(tài)多文檔文摘的研究中,使文摘同時(shí)融入了文檔的流形結(jié)構(gòu)和動(dòng)態(tài)演化性。在動(dòng)態(tài)多文檔文摘領(lǐng)域,對(duì)相關(guān)文檔集進(jìn)行特征抽取是文摘技術(shù)的核心。主流思想是以信息顯著性和信息新穎性為主要特征,根據(jù)句子信息顯著度和信息新穎度對(duì)句子加權(quán)排序,抽取排序值最高的句子作為文摘句;對(duì)已經(jīng)提取的文檔集特征,根據(jù)信息顯著度對(duì)句子加權(quán)排序,進(jìn)而根據(jù)信息新穎度過(guò)濾句子,過(guò)濾掉信息新穎度低的句子,最后從剩余的句子集合中抽取排序值高的句子作為文摘句。在上述兩種思想中,都把文檔集中的句子看成是孤立的,認(rèn)為句子之間沒(méi)有關(guān)聯(lián),這是一種錯(cuò)誤的假設(shè)。文檔集中的句子,有相當(dāng)一部分相互之間具有關(guān)聯(lián)性。

        文中提出的動(dòng)態(tài)流形排序思想彌補(bǔ)了上述兩種模型的不足,基于動(dòng)態(tài)分析,考慮了句子之間的相關(guān)性。動(dòng)態(tài)流行排序是一種迭代算法,考慮了句子集合中數(shù)據(jù)點(diǎn)的流行結(jié)構(gòu),經(jīng)迭代后,相似的句子趨向于具有相同的排序值,同類(lèi)的句子趨向于具有相同的排序值,克服了常規(guī)文摘方法的缺點(diǎn)。

        1 相關(guān)工作

        1.1 動(dòng)態(tài)多文檔文摘和流行排序的相關(guān)研究

        美國(guó)NIST[2]承辦的Document Understanding Conference (DUC) 2007[3]首次提出了動(dòng)態(tài)文摘任務(wù),在IARPA[4]的支持下于2007年舉行了第一屆評(píng)測(cè)會(huì)議,并且在Text Analysis Conference (TAC)2008[5]中仍然被作為重要的評(píng)測(cè)任務(wù)之一。在時(shí)序信息高速演化的背景下,快速的動(dòng)態(tài)信息獲取技術(shù)成為數(shù)據(jù)挖掘和自然語(yǔ)言處理的研究重點(diǎn)。

        國(guó)內(nèi)很多學(xué)者在文摘方面的研究效果顯著,例如,靜態(tài)文摘和動(dòng)態(tài)文摘相結(jié)合就是一種基于改進(jìn)文摘模型的動(dòng)態(tài)文摘解決方法。張瑾等[6]提出了一種基于模糊隸屬度的文檔過(guò)濾模型。該方法從對(duì)動(dòng)態(tài)內(nèi)容的建模入手,通過(guò)模式識(shí)別和傳統(tǒng)文摘生成方法,對(duì)動(dòng)態(tài)內(nèi)容進(jìn)行提取和分析。在動(dòng)態(tài)網(wǎng)絡(luò)演化信息中,句子選擇和排序也需要?jiǎng)討B(tài)變化,因此需要解決如何在排列策略中體現(xiàn)動(dòng)態(tài)內(nèi)容的演化性問(wèn)題。文中主要對(duì)信息顯著度(information significance,IS)[7]和信息新穎度(information novelty,IN)兩種指標(biāo)進(jìn)行評(píng)估和分析,在此基礎(chǔ)上改進(jìn)設(shè)計(jì)一種基于動(dòng)態(tài)時(shí)序內(nèi)容的句子排列流形策略。

        流形這個(gè)概念最早產(chǎn)生于人類(lèi)對(duì)感知的研究[8],最初階段關(guān)系到與物理世界(地球的表面)和幾何公理研究有關(guān)的多維參數(shù)思想的分析[9]。從拓?fù)鋵W(xué)角度出發(fā),流形表示一個(gè)局部為歐幾里德的拓?fù)淇臻g。局部歐幾里德特性意味著對(duì)于空間上任一點(diǎn)都有一個(gè)鄰域,在這個(gè)鄰域中的拓?fù)渑cRm空間中的開(kāi)放單位圓相同,Rm表示m維歐氏空間,從拓?fù)淇臻g的一個(gè)開(kāi)集(鄰域)到歐氏空間的開(kāi)子集的同胚映射,使得每個(gè)局部可坐標(biāo)化。它的本質(zhì)是分段線性處理[10]。流形學(xué)習(xí)的主要目標(biāo)是從非線性高維數(shù)據(jù)中發(fā)現(xiàn)嵌入其中的低維光滑流形,以進(jìn)行維數(shù)約簡(jiǎn)和數(shù)據(jù)分析。

        流形排序[11-12]在話題相關(guān)的靜態(tài)多文檔文摘中得到了很好的應(yīng)用,在傳統(tǒng)文摘技術(shù)中應(yīng)用流形排序?qū)W習(xí)算法中得到了啟發(fā)。文中面向動(dòng)態(tài)多文檔文摘領(lǐng)域,提出了一種面向查詢(xún)的動(dòng)態(tài)流形排序模型,該模型更好地體現(xiàn)了文檔的流行結(jié)構(gòu)和動(dòng)態(tài)演化性。

        1.2 主流的評(píng)測(cè)方法

        目前在時(shí)序多文檔文摘的評(píng)價(jià)方面完全沿用傳統(tǒng)靜態(tài)多文檔文摘的評(píng)價(jià)方法,包括自動(dòng)評(píng)價(jià)ROUGE[10]、BE[13]方法和人工評(píng)價(jià)金字塔(PYRAMID)[14]方法。文摘評(píng)價(jià)主要面向文摘的內(nèi)容選擇和語(yǔ)言質(zhì)量。自動(dòng)評(píng)價(jià)針對(duì)文摘的內(nèi)容選擇進(jìn)行評(píng)測(cè),而人工評(píng)價(jià)則針對(duì)文摘的內(nèi)容選擇、語(yǔ)言質(zhì)量和整體的反映度(綜合考慮面向話題的覆蓋度和流利度)進(jìn)行評(píng)測(cè)。

        TAC是多文檔文摘領(lǐng)域最有影響的國(guó)際評(píng)測(cè)會(huì)議,由美國(guó)國(guó)家技術(shù)標(biāo)準(zhǔn)局(national institute of standards and technology,NIST)主辦的DUC和TREC中的問(wèn)答評(píng)測(cè)演化而來(lái)。TAC評(píng)測(cè)由美國(guó)IARPA(intelligence advanced research projects activity)資助,每年由NIST的信息技術(shù)研究室中的信息檢索組主辦,由來(lái)自政府、企業(yè)和學(xué)術(shù)界的顧問(wèn)委員會(huì)監(jiān)督。Update summarization評(píng)測(cè)面向英語(yǔ),測(cè)試語(yǔ)料主要來(lái)自TREC中QA評(píng)測(cè)的AQUAINT-2數(shù)據(jù)集。

        2 DMRM多文檔文摘模型

        2.1 動(dòng)態(tài)流形排序思想

        經(jīng)典流形排序主要用于數(shù)據(jù)點(diǎn)查詢(xún)問(wèn)題中,即數(shù)據(jù)挖掘領(lǐng)域。其主要排序特征是查詢(xún)數(shù)據(jù)點(diǎn),查詢(xún)數(shù)據(jù)點(diǎn)一般來(lái)說(shuō)是靜態(tài)的,這是經(jīng)典流形排序?yàn)殪o態(tài)模型的原因。在動(dòng)態(tài)多文檔文摘領(lǐng)域,其主要的排序特征是信息顯著性和信息新穎性。具體而言,信息顯著性包括的特征有:句子與所有其他句子相似度累加值特征;句子在文檔中的位置特征;句子的長(zhǎng)度特征。信息新穎性包括的特征有:與歷史文摘的相似度值,相似度愈小,新穎性愈強(qiáng);句子的時(shí)間特征。文中提出的動(dòng)態(tài)流行排序模型主要使用這五個(gè)特征對(duì)句子加權(quán),進(jìn)行文摘內(nèi)容的選擇和排序。

        2.2 DMRM的算法流程

        DMRM的算法流程如圖1所示。

        圖1 DMRM的算法流程

        2.3 DMRM的建立

        2.3.1 句子相似度矩陣W

        該模型的第一步為相似度矩陣的建立,用來(lái)度量句子集合中句子之間的相關(guān)性,是動(dòng)態(tài)流行排序思想的基礎(chǔ)。相似度矩陣的建立過(guò)程也是為文檔集中的句子集建立帶權(quán)無(wú)向圖的過(guò)程。該矩陣的建立要依賴(lài)于兩句子之間的相似度算法,所以相似度算法的選擇至關(guān)重要。雖然該領(lǐng)域中已存在不少相似度算法,但是其在該模型中的應(yīng)用效果均不佳?;诖?文中提出了基于TII的句子相似度計(jì)算算法,其算法公式如下:

        (1)

        其中,W為句子si和sj中的同現(xiàn)詞;Weight(w)=TF(w)*IDF(w)*ISF(w)為詞語(yǔ)W的權(quán)重,其中TF(w)表示詞語(yǔ)W的頻率,IDF(w)表示詞語(yǔ)W的反文檔頻率,ISF(w)表示詞語(yǔ)W的反句子頻率。此三值的統(tǒng)計(jì)范圍均為當(dāng)前文檔集句子集合,其中IDF(w)=1/DF(w),DF(w)為整個(gè)文檔集合中包含詞W的文檔數(shù),ISF(w)=1/SF(w),SF(w)為整個(gè)文檔集中包含詞W的句子數(shù);length(si)和length(sj)分別表示si和sj的長(zhǎng)度。

        運(yùn)用該相似度算法對(duì)文檔集句子集合中所有句子其相互之間的相似度值進(jìn)行計(jì)算,即可建立相似度矩陣W。

        2.3.2 句子顯著度向量A

        動(dòng)態(tài)流行排序模型的第二步為句子特征值的提取。定義向量A,其元素表示當(dāng)前文檔集句子集合中相應(yīng)句子與所有其他句子的相似度累加值,這個(gè)值是衡量句子重要性的一個(gè)特征。這種思想基于投票原理:句子集合中的句子之間具有關(guān)聯(lián)性,這種關(guān)聯(lián)性的強(qiáng)弱可通過(guò)其與其他句子間的相似度大小來(lái)體現(xiàn),同時(shí)與其具有關(guān)聯(lián)性的句子數(shù)量同樣能體現(xiàn)出這種關(guān)聯(lián)性強(qiáng)弱。綜合考慮以上兩項(xiàng)因素,文中提出用句子間的相似度累加值作為衡量句子關(guān)聯(lián)性的參數(shù),若某句子擁有相當(dāng)大的關(guān)聯(lián)性度量值,即表示該句子所含信息的顯著度值很大,那么該句子將成為一重要的候選文摘句,因此該特征將成為候選文摘句選擇的一重要指標(biāo)。計(jì)算某句子sent相似度累加值的公式如下:

        (2)

        其中,n表示當(dāng)前文檔集中句子的總數(shù);Sim(sent,si)可由式(1)的計(jì)算方法得到,表示句子sent和句子si之間的相似度。

        運(yùn)用該算法計(jì)算句子集合中所有句子的相應(yīng)值,即可建立向量A。

        2.3.3 句子冗余度向量B

        向量B中的元素表示句子與歷史文摘中所有句子的相似度累加值,這個(gè)值是衡量句子信息新穎度的一個(gè)參數(shù)值?;谏鲜鐾镀痹?句子與歷史文摘句子集合的相似度累加值愈大,該句子與歷史文摘中的句子具有的關(guān)聯(lián)性愈大,表明該句子包含更多冗余信息。在動(dòng)態(tài)流形排序模型中使用此特征可過(guò)濾掉信息冗余度高的句子,這是動(dòng)態(tài)流形排序模型動(dòng)態(tài)性的表現(xiàn)之一。文中提出的計(jì)算公式如下:

        (3)

        其中,n表示歷史文摘中的句子總數(shù);Sim(sent,si)同式(2)。

        運(yùn)用該公式計(jì)算當(dāng)前文檔句子集合中所有句子的相應(yīng)值,即可得到向量B。

        2.3.4 動(dòng)態(tài)特征選擇

        (1)句子時(shí)間特征向量C的建立。

        由于句子時(shí)間特征是文摘?jiǎng)討B(tài)性的一個(gè)重要體現(xiàn),因此系統(tǒng)融入了對(duì)其的考慮。直接考慮每個(gè)句子的時(shí)間特征涉及到時(shí)間短語(yǔ)的提取和歸一化,這是時(shí)序多文檔文摘的研究?jī)?nèi)容,考慮起來(lái)過(guò)于復(fù)雜,而且該系統(tǒng)的研究?jī)?nèi)容為動(dòng)態(tài)多文檔文摘,與時(shí)序多文檔文摘有一定的區(qū)別,沒(méi)有必要考慮所有的時(shí)間短語(yǔ)。所以該系統(tǒng)將避開(kāi)直接考慮句子級(jí)的時(shí)間特征,而從文檔集整體角度去考慮時(shí)間特征,這為問(wèn)題的解決提供了方便??紤]到文檔集中各個(gè)文檔的出版時(shí)間有先有后,以及動(dòng)態(tài)多文檔文摘具有動(dòng)態(tài)演化特性,所以出版時(shí)間靠前的文檔具有小的新穎性,出版時(shí)間靠后的文摘具有大的新穎性?;诖嗽?文中以文檔在文檔集合中出現(xiàn)的時(shí)間順序來(lái)衡量該文檔的新穎性,進(jìn)而衡量該文檔中句子的新穎性。句子信息新穎性度量值計(jì)算公式如下:

        Time_Weight(sent)=i

        (4)

        其中,Time_Weight(sent)為句子sent的時(shí)間特征權(quán)值;i為句子sent所屬文檔在文檔集中根據(jù)時(shí)間排序的排序值。

        運(yùn)用該公式即可計(jì)算當(dāng)前文檔句子集合中所有句子的相應(yīng)值,形成時(shí)間特征權(quán)重向量C。

        (2)句子位置特征向量D的建立。

        句子的位置特征對(duì)于多文檔文摘系統(tǒng)是不可或缺的。句子在文檔中的位置決定了其重要性,根據(jù)文章的規(guī)律,位置靠前和靠后的句子比在中間的句子具有更高的重要性,加入句子位置特征能使文摘系統(tǒng)具有更好的性能。所以文中在動(dòng)態(tài)流形排序模型算法中加入句子的位置特征,其計(jì)算公式如下:

        (5)

        其中,Position_Weight(sent)表示句子sent的位置特征值;ps表示句子sent在所屬文檔中的位置值。

        利用該公式即可計(jì)算當(dāng)前文檔中所有句子的相應(yīng)值,從而建立句子位置特征向量D。

        (3)句子長(zhǎng)度特征。

        無(wú)論對(duì)于靜態(tài)多文檔文摘系統(tǒng),還是動(dòng)態(tài)多文檔文摘系統(tǒng),句子長(zhǎng)度特征都是必不可少的。若句子太短,則該句子不具有很高的重要性;若句子太長(zhǎng),即使重要,由于占用文摘的空間太大,也不利于文摘的效果的提高,因?yàn)樵趧?dòng)態(tài)多文檔文摘中,文摘是有字?jǐn)?shù)限制的。例如,TAC是國(guó)際上著名的文摘評(píng)測(cè)會(huì)議,其update summary任務(wù)是專(zhuān)門(mén)針對(duì)動(dòng)態(tài)多文檔文摘評(píng)測(cè)的,其要求文摘字?jǐn)?shù)在一百字以?xún)?nèi),因而對(duì)句子長(zhǎng)度的考慮是必須的。文中按如下方法使用該特征:當(dāng)句子長(zhǎng)度大于n1與小于n2時(shí),考慮該句子;否則舍去。該模型算法中,設(shè)置n1為10,n2為25。在算法設(shè)計(jì)階段沒(méi)有用到句子長(zhǎng)度特征,而在文摘句優(yōu)選階段考慮句子長(zhǎng)度特征,有助于動(dòng)態(tài)流形排序算法的實(shí)現(xiàn)。

        2.3.5 動(dòng)態(tài)流形排序思想的核心

        經(jīng)典流形排序思想主要用于早期的數(shù)據(jù)點(diǎn)查詢(xún)問(wèn)題,描述如下:令f表示一個(gè)排序函數(shù),其賦予每一個(gè)節(jié)點(diǎn)xi一個(gè)排序值fi,如此,f可表示為一個(gè)向量f=[f1,f2,…,fn]T。同時(shí),定義向量y=[y1,y2,…,yn]T,若xi是一個(gè)查詢(xún),則令yi=1;否則,令yi=0。首先定義相鄰矩陣W={Wij|i,j=1,2,…,n},其中Wij表示從xi到xj的相似度。再定義另外一個(gè)矩陣S,其計(jì)算公式為S=D-1W,其中D為對(duì)角陣,其第(i,i)個(gè)元素等于W第i行之和,其他值均為0,矩陣S稱(chēng)拉普拉斯矩陣,其值Sij即為從xi到xj的轉(zhuǎn)移概率。在矩陣?yán)绽咕仃嘢的基礎(chǔ)上,句子x1,x2,…,xn的重要性權(quán)重f可由與之相鄰的其他句子推導(dǎo)出來(lái)。f的計(jì)算公式可以遞歸地表示為:

        f(t+1)=α*S*f(t)+(1-β)*y

        (6)

        其中,α和1-α分別表示相鄰節(jié)點(diǎn)和初始的查詢(xún)數(shù)據(jù)點(diǎn)的排序值對(duì)當(dāng)前排序值的相對(duì)貢獻(xiàn)。

        分析經(jīng)典流形排序模型算法可知,整個(gè)算法只使用了一個(gè)特征,即查詢(xún)數(shù)據(jù)點(diǎn)。因?yàn)閷?duì)數(shù)據(jù)查詢(xún)問(wèn)題就只依賴(lài)于這一個(gè)特征,所有元素的排序值都由此特征決定。動(dòng)態(tài)多文檔文摘的目的是抽取最重要的指定數(shù)量的句子作為文檔集的文摘,其排序?qū)ο笫钱?dāng)前文檔集的句子集合。由前面的分析可知,句子的重要性程度依賴(lài)于五個(gè)特征:與當(dāng)前文檔集中句子集合的相似度累加值;與歷史文摘中句子集合的相似度累加值;句子的位置特征;句子的時(shí)間特征;句子的長(zhǎng)度特征。由于動(dòng)態(tài)流形排序算法暫不考慮句子的長(zhǎng)度特征,故還有四個(gè)需考慮的特征,根據(jù)這四個(gè)特征建立了四個(gè)向量。其中句子與當(dāng)前文檔集中句子集合相似度累加值向量A和句子位置特征向量D的加入意味著在句子排序值中加入了句子的信息顯著度;句子與歷史文摘中句子集合相似度累加值向量B和句子時(shí)間特征向量C的加入意味著在句子排序值中加入了信息新穎度,體現(xiàn)了該動(dòng)態(tài)流形排序模型的動(dòng)態(tài)性。

        動(dòng)態(tài)流形排序思想的核心-迭代計(jì)算句子的排序值向量f(t)受經(jīng)典流形排序思想的啟發(fā),文中提出的動(dòng)態(tài)流行排序迭代算法公式為:

        f(t+1)=α*S*f(t)+β*A-γ*B+η*C+λ*D

        (7)

        其中,f(t)和f(t+1)分別表示一次迭代前后的排序值;α為相鄰點(diǎn)對(duì)該句子排序值的貢獻(xiàn);β為當(dāng)前文檔集中與之相似的句子集合對(duì)該句子排序值的貢獻(xiàn);γ為歷史文摘中與之相似的句子對(duì)該句子的懲罰;η為該句子時(shí)間特征對(duì)之排序值的貢獻(xiàn);λ為句子位置特征對(duì)該句子排序值的貢獻(xiàn)。

        該公式計(jì)算完成之后的f(t+1)的最終值記為向量f,其第i個(gè)元素為句子senti的權(quán)重,也就是Weigth(senti)。

        由式(7)可知,該算法基于迭代算法,算法的迭代次數(shù)理所當(dāng)然地會(huì)影響實(shí)驗(yàn)結(jié)果。迭代次數(shù)過(guò)多,句子集合中的所有句子排序值差異將非常小,那么對(duì)后面的其他算法,很小的參數(shù)波動(dòng)都會(huì)使得實(shí)驗(yàn)結(jié)果有很大的差異性;評(píng)測(cè)語(yǔ)料的不同也會(huì)使實(shí)驗(yàn)結(jié)果產(chǎn)生很大的差異性,使算法的穩(wěn)定性變差。迭代次數(shù)過(guò)少,句子之間的關(guān)聯(lián)性所起的作用就相當(dāng)小,達(dá)不到動(dòng)態(tài)流形排序原本的目的。因此,迭代次數(shù)的確定也是算法的一個(gè)重要環(huán)節(jié)。

        2.3.6 文摘句優(yōu)選算法

        動(dòng)態(tài)流形排序的優(yōu)點(diǎn)是考慮了句子之間的關(guān)聯(lián)性,使重要的句子之間互相推薦,使得抽取的文摘句都具有很高的重要性;缺點(diǎn)恰巧也在此,因?yàn)樵撍惴▽?dǎo)致抽取的句子都是相互之間有很高相似度的句子,用此句子集合形成的文摘具有很高的冗余性,使得文摘的概括面非常窄,導(dǎo)致結(jié)果不理想。若想通過(guò)此模型得到好的文摘,必須解決文摘句的優(yōu)選問(wèn)題。傳統(tǒng)的MMR文摘句優(yōu)選算法,句子之間的相似度計(jì)算基于詞頻統(tǒng)計(jì)方法,由于該算法不能很好地計(jì)算句子之間的相似度,傳統(tǒng)的MMR文摘句優(yōu)選算法的效果不佳。基于此,文中提出了一種新的文摘句優(yōu)選算法,其計(jì)算公式如下:

        New_Weight(sent)=α*Old_Weight(sent)-

        (8)

        3 實(shí) 驗(yàn)

        3.1 實(shí)驗(yàn)語(yǔ)料及評(píng)測(cè)方法

        在TAC2008中,Update Summarization任務(wù)的測(cè)試語(yǔ)料由來(lái)自AQUAINT-2的48個(gè)話題組成,每個(gè)話題包含兩個(gè)時(shí)間片,且均由10個(gè)文檔組成。評(píng)價(jià)標(biāo)準(zhǔn)采用文摘評(píng)測(cè)領(lǐng)域著名的ROUGE工具,其中最主要的兩個(gè)指標(biāo)ROUGE-2和ROUGE-SU4*是評(píng)價(jià)Update文摘的。

        3.2 實(shí)驗(yàn)結(jié)果及分析

        迭代算法中的所有參數(shù)都影響系統(tǒng)的性能。不同的參數(shù)設(shè)置,相應(yīng)的實(shí)驗(yàn)結(jié)果差異性很大,因此針對(duì)文中提出的模型,測(cè)試了以下的參數(shù)設(shè)置。

        做了三組實(shí)驗(yàn),第一組比較信息新穎度和信息顯著度對(duì)_DMRM的貢獻(xiàn),第二組比較不同的迭代次數(shù)對(duì)_DMRM的影響,第三組比較DMRM性能與TAC2008 Update,分別如表1~3所示。

        表1 不同參數(shù)設(shè)置的比較

        從表1可以看出,當(dāng)α=0.4,β=0.3,γ=0.1,η=0.1,λ=0.1時(shí),文摘性能最好。最好效果出現(xiàn)在α=0.4的參數(shù)設(shè)置上,表明了句子集合中句子之間的關(guān)聯(lián)性對(duì)文摘句抽取影響很大,由得分可以看出動(dòng)態(tài)流行排序在動(dòng)態(tài)多文檔文摘領(lǐng)域中具有一定適用性。

        表2 不同迭代次數(shù)的比較

        從表2可以看出,當(dāng)?shù)螖?shù)為50時(shí),ROUGE-2(R-2)和ROUGE-SU4(R-SU4)得分最高,即文摘性能最好,說(shuō)明此模型的時(shí)間復(fù)雜度適中,系統(tǒng)運(yùn)行起來(lái)速度較快。

        表3 與TAC2008發(fā)布結(jié)果的比較

        TAC2008總共發(fā)布了73個(gè)系統(tǒng)分?jǐn)?shù),表3中列出了前三名系統(tǒng)的ROUGE-2和ROUGE-SU4打分,與此分?jǐn)?shù)比較,本模型在TAC2008的發(fā)布結(jié)果中排名第1,說(shuō)明動(dòng)態(tài)流行排序模型很有潛力,是一種不錯(cuò)的動(dòng)態(tài)多文檔文摘建模方法。

        綜上,在動(dòng)態(tài)多文檔文摘領(lǐng)域,動(dòng)態(tài)流行排序思想值得研究,是一種有效的動(dòng)態(tài)多文檔文摘方法。

        4 結(jié)束語(yǔ)

        在認(rèn)真研究國(guó)內(nèi)外多文檔文摘領(lǐng)域最新發(fā)展的基礎(chǔ)上,創(chuàng)新性地對(duì)動(dòng)態(tài)內(nèi)容的演化關(guān)系進(jìn)行了差異性分析??紤]到文摘句的信息新穎度和信息顯著度對(duì)文摘的重要性,運(yùn)用流行排序思想整合信息新穎度和信息顯著度對(duì)句子集合中所有句子進(jìn)行排序,根據(jù)排序值抽取句子形成文摘。同時(shí)融入對(duì)句子歷史信息特征的懲罰和時(shí)間特征的獎(jiǎng)勵(lì)后,還能實(shí)現(xiàn)對(duì)文檔集所含信息動(dòng)態(tài)演化性的建模,使文摘具有動(dòng)態(tài)性,對(duì)于推動(dòng)動(dòng)態(tài)多文檔文摘領(lǐng)域的發(fā)展起到了一定的作用。下一步將是研究如何與其他模型更好地融合,使動(dòng)態(tài)文摘具有更好的顯著性和新穎性。

        [1] NENKOVA A,MASKEY S,LIU Y.Automatic summarization[C]//Proceedings of the 49th annual meeting of the association for computational linguistics.Stroudsburg,PA,USA:Association for Computational Linguistics,2001.

        [2] ALLAN J,JIN H,RAJMAN M,et al.Topic-based novelty detection[R].Baltimore:Center for Language and Speech Processing,Johns Hopkins University,1999.

        [3] TRIPATHY A,AGRAWAL A,RATH S K.Classification of sentimental reviews using machine learning techniques[C]//Proceedings of 3rd international conference on recent trends in computing.[s.l.]:[s.n.],2015:821-829.

        [4] ALLAN J,PAPKA R,LAVRENKO V.On-line new event detection and tracking[C]//Proceedings of the 21st annual international ACM SIGIR conference on research and development in information retrieval.New York,NY,USA:ACM,1998:37-45.

        [5] GILLICK D,FAVRE B.A scalable global model for summarization[C]//Proceedings of the workshop on integer linear programming for natural language processing.[s.l.]:[s.n.],2009:10-18.

        [6] 張 瑾,許洪波.基于動(dòng)態(tài)內(nèi)容的文摘方法研究[C]//全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議.出版地不詳:出版者不詳,2007.

        [7] XIE X,LIU Y,LE W,et al.S-looper:automatic summarization for multipath string loops[C]//International symposium on software testing and analysis.New York,NY,USA:ACM,2015:188-198.

        [8] SEUNG H,LEE D D.The manifold ways of perception[J].Science,2000,290(5500):2268-2269.

        [9] 陳惠勇.流形概念的起源與發(fā)展[J].太原理工大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2007,25(3):53-57.

        [10] 徐 蓉,姜 峰,姚鴻勛.流形學(xué)習(xí)概述[J].智能系統(tǒng)學(xué)報(bào),2006,1(1):44-51.

        [11] NASTASE V.Topic-driven multi-document summarization with encyclopedic knowledge and spreading activation[C]//Conference on empirical methods in natural language processing.Stroudsburg,PA,USA:Association for Computational Linguistics, 2008:763-772.

        [12] SILVEIRA S B,BRANCO A.Extracting multi-document summaries with a double clustering approach[M]//Natural language processing and information systems.Berlin:Springer,2012:70-81.

        [13] LIN C Y,HOVY E.Automatic evaluation of summaries using n-gram cooccurrence statistics[C]//Proceedings of the 2003 conference of the North American chapter of the association for computational linguistics on human language technology.Stroudsburg,PA,USA:Association for Computational Linguistics,2003:71-78.

        [14] FERREIRA R,CABRAL L D S,FREITAS F,et al.A multi-document summarization system based on statistics and linguistic treatment[J].Expert Systems with Applications,2014,41(13):5780-5787.

        猜你喜歡
        排序特征信息
        排序不等式
        恐怖排序
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        節(jié)日排序
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        展會(huì)信息
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        天堂av中文在线官网| 天天天天躁天天爱天天碰| 色婷婷久久一区二区三区麻豆| 欧洲亚洲综合| 中文字幕五月久久婷热| 成人激情视频在线手机观看| 狠狠色丁香婷婷综合潮喷| 成人黄色网址| 久久精品亚洲精品毛片| 自拍情爱视频在线观看| 欧美日韩午夜群交多人轮换| 亚洲人成电影在线观看天堂色| 国产在线网址| 国产成人久久精品二区三区| 亚洲国产成人极品综合| 亚洲av永久无码精品一区二区| 亚洲都市校园激情另类| 午夜视频在线观看国产| 国产亚洲精品第一综合另类| 中国丰满大乳乳液| 亚洲AV无码一区二区三区少妇av| 亚洲一区二区三区重口另类| 久久久无码精品亚洲日韩蜜臀浪潮| 精品国产一区二区三区久久久狼| 中文字幕五月久久婷热| 久久精品人搡人妻人少妇| 熟女少妇在线视频播放| 一本大道久久a久久综合| 大香蕉视频在线青青草| 蜜臀av色欲a片无码精品一区| 99久久久无码国产精品免费砚床| 亚洲欧洲无码精品ⅤA| 国产自拍在线观看视频| 免费看美女被靠的网站| 国产真人无遮挡免费视频| 日韩日本国产一区二区| 人人妻人人做人人爽| 俺来也俺去啦久久综合网| 青青青伊人色综合久久| 人妻av有码中文字幕| 日韩亚洲av无码一区二区不卡 |