亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)的MMR算法的新聞文本抽取式摘要方法

        2022-01-19 12:43:10李傳藝賈欣欣葛季棟

        程 琨, 李傳藝, 賈欣欣, 葛季棟, 駱 斌

        南京大學(xué)軟件學(xué)院,江蘇南京210093

        自動(dòng)文本摘要技術(shù)能夠從海量文本中快速提取有效信息,從而提升信息獲取效率。但是在面向新聞?lì)I(lǐng)域的應(yīng)用中,由于不同新聞文本之間長(zhǎng)度差異較大,自動(dòng)文本摘要技術(shù)表現(xiàn)出了以下缺點(diǎn):1)對(duì)于長(zhǎng)文本,摘要中的重復(fù)內(nèi)容較多,冗余問(wèn)題較為嚴(yán)重,并且對(duì)于特定專(zhuān)業(yè)領(lǐng)域的文本優(yōu)化較差;2)對(duì)于短文本,在摘要過(guò)程中由于考慮的因素較少,所以摘要質(zhì)量較低。

        為此,結(jié)合已有的監(jiān)督方法和非監(jiān)督方法,本文分別提出了兩個(gè)抽取式摘要模型。第1個(gè)模型對(duì)傳統(tǒng)的基于最大邊緣相關(guān)(maximal marginal relevance, MMR)摘要算法進(jìn)行了改進(jìn),融入了句子位置、標(biāo)題相似度等多個(gè)權(quán)重。第2 個(gè)模型是結(jié)合支持向量機(jī)(support vector machine, SVM)和MMR 構(gòu)建SVM-MMR 的摘要模型,該模型加入了監(jiān)督學(xué)習(xí)方法,將新聞?wù)暈槎诸?lèi)問(wèn)題,即新聞文本中的每個(gè)句子只存在兩種情況:“摘要”與“不摘要”。選取詞語(yǔ)、結(jié)構(gòu)和語(yǔ)義3 個(gè)方面的特征,將新聞文本中的句子向量化,并通過(guò)SVM 進(jìn)行分類(lèi),最后在SVM 分類(lèi)結(jié)果的基礎(chǔ)上引入MMR 算法對(duì)句子進(jìn)行二次選擇,從而降低摘要的冗余,提高摘要的質(zhì)量。

        基于MMR 摘要算法用來(lái)解決文檔的排序問(wèn)題,其核心思想在于平衡文檔的相關(guān)性和冗余性,使得選出的文檔足夠準(zhǔn)確,從而能夠很好地完成文本摘要任務(wù)。因此本文所提出的兩種算法都是通過(guò)改進(jìn)MMR 算法實(shí)現(xiàn)的。

        抽取式摘要是一種常用的自動(dòng)文本摘要技術(shù),包括4 類(lèi)無(wú)監(jiān)督方法,分別是基于圖模型的方法、基于潛在語(yǔ)義的方法、基于線性規(guī)劃的方法和基于向量空間的方法?;趫D模型的方法認(rèn)為在一篇文本中,如果某句和文中所有句子都有較強(qiáng)的關(guān)聯(lián),那么這個(gè)句子就是該文本的中心句。TextRank 模型[1]及其改進(jìn)方法[2-3]常用來(lái)衡量句子的關(guān)聯(lián)性;基于潛在語(yǔ)義的方法通過(guò)挖掘文本的詞句隱藏信息來(lái)生成摘要[4-5];基于線性規(guī)劃的方法將抽取式摘要看作在一定約束條件下的最優(yōu)化問(wèn)題,并基于整數(shù)線性規(guī)劃(integer linear programming, ILP)[6-7]進(jìn)行句子摘要和去冗余處理;基于向量空間的方法首先將句子向量化,然后通過(guò)計(jì)算余弦相似度來(lái)衡量每個(gè)句子的重要程度[7]。

        基于監(jiān)督學(xué)習(xí)的抽取式摘要方法先將文本中的句子映射為特征向量,再用決策樹(shù)[8]、隱馬爾科夫[9]、條件隨機(jī)場(chǎng)[10]等機(jī)器學(xué)習(xí)分類(lèi)算法來(lái)訓(xùn)練模型,進(jìn)而對(duì)文本中的句子進(jìn)行分類(lèi)。分類(lèi)的結(jié)果為“1” 或“0”,分別代表該句子能否作為文本最終摘要。文獻(xiàn)[11] 提出用SVM作為分類(lèi)器進(jìn)行抽取式摘要。文獻(xiàn)[12] 以語(yǔ)音摘要為研究對(duì)象,利用改進(jìn)的SVM 模型進(jìn)行抽取式摘要。文獻(xiàn)[13] 通過(guò)構(gòu)造多維度特征對(duì)摘要中的句子進(jìn)行向量化,然后使用SVM 模型對(duì)會(huì)議記錄進(jìn)行抽取式摘要。文獻(xiàn)[14] 利用神經(jīng)網(wǎng)絡(luò)模型來(lái)擬合ROUGE 分?jǐn)?shù),最后利用MMR 算法進(jìn)行摘要。近年來(lái)也出現(xiàn)了許多基于深度學(xué)習(xí)的模型[15-16],這一類(lèi)模型不需要很多人工抽取的特征,更強(qiáng)調(diào)如何設(shè)計(jì)模型使其能自動(dòng)地從輸入文本中學(xué)習(xí)特征。

        1 基于MMR 的改進(jìn)模型

        在實(shí)現(xiàn)該模型時(shí),首先需要綜合考慮影響新聞?wù)母鱾€(gè)因素,計(jì)算新聞文本句子的初始權(quán)重。然后,通過(guò)改進(jìn)的MMR 算法對(duì)句子的初始權(quán)重進(jìn)行迭代,得到這些句子的最終權(quán)重。最后,按最終權(quán)重的大小對(duì)句子進(jìn)行排序選出一定比例的句子,進(jìn)而按照句子在原文中的順序輸出所抽取出的句子得到摘要集。

        1.1 影響新聞?wù)囊蛩?/h3>

        根據(jù)已有的抽取式文本摘要相關(guān)研究成果、對(duì)人工標(biāo)注文本摘要過(guò)程的分析以及對(duì)新聞文本特點(diǎn)的歸納,本文總結(jié)出了以下4 個(gè)影響新聞?wù)囊蛩亍?/p>

        1.1.1 句子的位置權(quán)重

        句子的位置與新聞文本的主題存在相關(guān)關(guān)系,一般來(lái)說(shuō),文本的第1 段或最后1 段通常是對(duì)整個(gè)報(bào)道的總結(jié),具有高度的概括性。根據(jù)文獻(xiàn)[17] 所述,設(shè)新聞文本的第1 段由u個(gè)句子組成,最后1 段由v個(gè)句子組成,文本中句子總數(shù)為n,則可設(shè)置句子Si的位置權(quán)重Lweight(Si) 為

        式(1) 保證了在第1 段話中距離第1 句越遠(yuǎn)的句子,其權(quán)重越小;而在最后1 段話中,距離最后1 句越近的句子,其權(quán)重越大。式中,e1和e2分別用來(lái)控制第1 段和最后1 段所有句子的相對(duì)初始權(quán)重,一般在0 到1 之間。具體值可以根據(jù)待處理新聞文本的特征進(jìn)行設(shè)置。如果新聞中第1 段的概括性更強(qiáng),則將e1設(shè)為比e2更大的數(shù),例如e1為0.5,e2為0.1。

        1.1.2 線索詞與轉(zhuǎn)折詞

        線索詞和轉(zhuǎn)折詞通常引出具有總結(jié)性或強(qiáng)調(diào)性的句子。包含線索詞和轉(zhuǎn)折詞的句子往往比不包含該類(lèi)詞的句子更能表達(dá)新聞主旨。設(shè)ClueWords 代表線索詞和轉(zhuǎn)折詞,Cweight(Si)表示句子Si的線索詞和轉(zhuǎn)折詞權(quán)重,則該權(quán)重的計(jì)算公式為

        1.1.3 標(biāo)題相似度

        標(biāo)題往往是新聞內(nèi)容的高度凝練,因此與標(biāo)題相似度高的句子應(yīng)具有更高的權(quán)重。本文使用預(yù)訓(xùn)練BERT 模型對(duì)句子和標(biāo)題進(jìn)行向量化,然后將兩個(gè)向量的余弦相似度作為句子和標(biāo)題的相似度。設(shè)句子Si和標(biāo)題T的句向量分別為(x1,··· ,xn) 和(y1,··· ,yn),則句子Si的標(biāo)題相似度權(quán)重Sweight(Si) 的計(jì)算公式為

        1.1.4 關(guān)鍵詞權(quán)重

        含有文本關(guān)鍵詞的句子通常比其他句子具有更多的文本有效信息。本文通過(guò)TF-IDF 算法來(lái)抽取新聞文本和新聞標(biāo)題中10 個(gè)關(guān)鍵詞作為關(guān)鍵詞表,使用Keywords 表示關(guān)鍵詞集合。如果句子中含有關(guān)鍵詞,則關(guān)鍵詞權(quán)重值Kweight(Si) 賦值為1,即

        1.2 初始權(quán)重計(jì)算

        得到上述影響新聞?wù)? 個(gè)權(quán)重值后,需要設(shè)計(jì)加權(quán)算法以計(jì)算最終的初始權(quán)重。首先由Lweight、Cweight、Kweight加權(quán)得到中間權(quán)重wmid,即

        式中:α,β,γ為加權(quán)系數(shù),且α+β+γ= 1。在具體應(yīng)用場(chǎng)景下,加權(quán)系數(shù)可以根據(jù)文本不同級(jí)別權(quán)重值的取值范圍及其重要程度進(jìn)行設(shè)置。

        再將中間權(quán)重wmid與標(biāo)題相似度權(quán)重Sweight加權(quán),得到句子Si的初始權(quán)重w(Si)

        式中,為了保證Sweight和wmid在同一數(shù)量級(jí),而且為了能夠動(dòng)態(tài)調(diào)整wmid的權(quán)重,引入了調(diào)節(jié)因子δ。

        1.3 改進(jìn)MMR 算法

        初始MMR 算法是用來(lái)根據(jù)查詢對(duì)文檔集合進(jìn)行排序的,本文對(duì)MMR 算法進(jìn)行了改進(jìn),使其適用于面向新聞文本的抽取式摘要。

        抽取式摘要的目的是對(duì)句子進(jìn)行合理的排序,然后根據(jù)順序選出一定比例的摘要集。根據(jù)這個(gè)目的,本文設(shè)計(jì)的面向摘要的MMR 算法如下:

        式中:D是通過(guò)MMR 算法得到的階段性候選集,λ為控制摘要概括性與冗余性的一個(gè)系數(shù)。

        該算法的公式共分為兩部分,w(Si) 計(jì)算的是新聞本文中所有句子的初始權(quán)重,similarity(Si,D) 計(jì)算的是新聞文本中句子與已入選候選集句子之間的相似度,其中?(1?λ)是負(fù)值。如果當(dāng)前句子與摘要集句子之間的相似度過(guò)大,那么該算法會(huì)對(duì)當(dāng)前句子的權(quán)重進(jìn)行懲罰,以盡可能地減少摘要集的冗余。

        使用該算法對(duì)初始權(quán)重進(jìn)行迭代的流程圖如圖1 所示。

        圖1 MMR算法流程圖Figure 1 Algorithm flow chart of MMR

        2 基于SVM-MMR 的融合模型

        在實(shí)現(xiàn)該模型時(shí),首先需要構(gòu)造句子特征,將新聞文本中的句子轉(zhuǎn)化為句向量,然后訓(xùn)練并使用SVM 預(yù)測(cè)每個(gè)句子成為摘要的概率值,按概率值大小排序納入摘要集。對(duì)處于摘要比例邊緣的句子利用改進(jìn)的MMR 算法進(jìn)行二次選擇,得到最終的摘要集。

        2.1 特征工程

        在進(jìn)行句子特征構(gòu)造時(shí),本文首先綜合選取了3 類(lèi)特征,分別為詞語(yǔ)特征、結(jié)構(gòu)特征和語(yǔ)義特征。其中詞語(yǔ)特征14 個(gè),結(jié)構(gòu)特征6 個(gè),語(yǔ)義特征5 個(gè),共計(jì)25 個(gè)。

        然后需要從這一系列特征中選取最優(yōu)的特征用于模型的訓(xùn)練。在選取特征的時(shí)候考慮兩方面的因素,一是特征的方差值不能過(guò)小,否則說(shuō)明樣本在這個(gè)特征上區(qū)別不大;二是特征和目標(biāo)的相關(guān)性越高越好。

        本文采用過(guò)濾式選擇來(lái)選取特征,包括以下兩種方法。

        1)基于方差的特征過(guò)濾方法

        計(jì)算各特征方差值,過(guò)濾掉方差小于5 的特征。

        2)基于卡方驗(yàn)證的特征過(guò)濾方法

        設(shè)自變量有N種取值,因變量有M種取值,考慮自變量等于i且因變量等于j的樣本頻數(shù)的觀察值A(chǔ)與期望E的差距,構(gòu)建統(tǒng)計(jì)量的計(jì)算公式為

        統(tǒng)計(jì)量x2的值即描述了自變量與因變量之間的相關(guān)程度,其值越大,相關(guān)程度也越大,相互獨(dú)立性越弱。

        經(jīng)過(guò)特征過(guò)濾后得到的最終特征如表1 所示。

        表1 輸入SVM的句子特征列表Table 1 List of sentence features used in SVM

        2.2 SVM-MMR 融合算法

        根據(jù)特征過(guò)濾得到的16 個(gè)特征可將新聞文本中的所有句子轉(zhuǎn)化為16 維向量。對(duì)特征向量使用SVM 算法訓(xùn)練并進(jìn)行概率估計(jì),輸出句子入選摘要集中的概率,并根據(jù)概率值對(duì)新聞文本的句子進(jìn)行降序排列。

        在SVM 算法訓(xùn)練過(guò)程中,采用StandardScaler() 函數(shù)對(duì)特征進(jìn)行歸一化處理,采用SMOTE() 函數(shù)對(duì)樣本進(jìn)行過(guò)采樣,使得正負(fù)樣本均衡,并使用GridSearchCV() 函數(shù)對(duì)參數(shù)進(jìn)行網(wǎng)格搜索,通過(guò)交叉驗(yàn)證確定最佳效果參數(shù)。

        這些句子分為兩類(lèi)。第1 類(lèi)為Ss,該類(lèi)句子概率值排名很靠前,可以直接入選摘要集。第2 類(lèi)為Sc,該類(lèi)句子排名在摘要比例附近,有時(shí)其概率值的差異并不大,需要納入候選集中進(jìn)行二次選擇。本文采用改進(jìn)的MMR 算法對(duì)第2 類(lèi)句子進(jìn)行處理。通過(guò)SVM 模型計(jì)算得到的概率值pi仍然具有有效信息,本文將概率值pi與MMR 算法相結(jié)合,求出每個(gè)句子的得分為

        式中:Sm表示摘要集,Si是摘要候選集Sc中的句子,sim(Si,T) 是指句子Si與新聞文本標(biāo)題T的相似度,sim(Si,Sm) 是指句子Si與當(dāng)前摘要集的相似度。

        為了使新聞?wù)娜哂喽容^低,定義MMR 得分為

        MMR 得分越高,說(shuō)明最終摘要的冗余度越低、質(zhì)量越高。所以根據(jù)MMR 得分來(lái)選出最優(yōu)摘要句,公式為

        式中:Sf為最終的摘要集;Ss為被直接選作摘要的句子;S′c為從摘要候選集Sc中進(jìn)行二次選擇選出的摘要句;S′c有多種組合。選出其中MMR 得分最高的組合與Ss共同構(gòu)成最終的摘要。

        3 實(shí) 驗(yàn)

        3.1 語(yǔ)料庫(kù)構(gòu)建

        本文采用的數(shù)據(jù)集是從“第一財(cái)經(jīng)”新聞網(wǎng)站的汽車(chē)新聞模塊[18]爬取的新聞報(bào)道,共計(jì)4 000 篇,保留了每篇報(bào)道的新聞標(biāo)題。其中3 200 篇用于監(jiān)督學(xué)習(xí)的模型訓(xùn)練,共有63 360個(gè)句子;800 篇為測(cè)試集,用于模型效果對(duì)比。

        對(duì)上面得到的數(shù)據(jù)集,需要進(jìn)行基本的處理,以構(gòu)建語(yǔ)料庫(kù),主要步驟如下:

        步驟1對(duì)網(wǎng)頁(yè)標(biāo)記以及一些特殊字符進(jìn)行處理,刪除新聞中的圖集與視頻,提取出數(shù)據(jù)中的文本信息并進(jìn)行去重處理。

        步驟2對(duì)網(wǎng)頁(yè)標(biāo)記以及一些特殊字符進(jìn)行處理,刪除新聞中的圖集與視頻,以句號(hào)、感嘆號(hào)和問(wèn)號(hào)為分割標(biāo)志對(duì)這4 000 篇新聞報(bào)道進(jìn)行分句和人工標(biāo)注,從每篇報(bào)道中抽取約20% 的句子,形成最終的摘要。

        經(jīng)過(guò)統(tǒng)計(jì),本實(shí)驗(yàn)數(shù)據(jù)集的基本信息如表2 所示。

        表2 數(shù)據(jù)集基本信息Table 2 Basic information of data set

        3.2 實(shí)驗(yàn)設(shè)置

        對(duì)于構(gòu)建的語(yǔ)料,需要進(jìn)行一系列預(yù)處理方可輸入模型中使用,主要預(yù)處理步驟如下。

        步驟1中文分詞

        本文通過(guò)正則表達(dá)式去除文本中特殊字符、數(shù)字符號(hào)以及英文字母等,再采用jieba 精確模式對(duì)文本進(jìn)行分詞。

        步驟2去停用詞

        本文使用一本比較通用的停用詞詞典,去除新聞文本中的停用詞。

        步驟3詞性標(biāo)注

        名詞以及動(dòng)詞往往能夠表達(dá)比較關(guān)鍵的信息,本文使用THULAC 工具進(jìn)行詞性標(biāo)注,以方便特征的抽取。

        在實(shí)驗(yàn)時(shí),如無(wú)特殊說(shuō)明,那么所有模型的摘要比例均為20%,該最優(yōu)摘要比例可根據(jù)對(duì)比試驗(yàn)得出。在MMR 模型中,將e1設(shè)為0.5,e2設(shè)為0.1,α,β,γ的值分別設(shè)定為0.2, 0.4,0.4,并且使用滾雪球的方法確定δ的取值為0.18,λ值設(shè)為0.9。在SVM-MMR 模型中,本文對(duì)SVM 的最優(yōu)參數(shù)進(jìn)行網(wǎng)格搜索,并采用5 折交叉驗(yàn)證的方式來(lái)減少結(jié)果的偶然性,最終使用的各項(xiàng)參數(shù)如表3 所示。在綜合考慮MMR 和SVM 結(jié)果時(shí),λ1取值為0.5,λ2取值為0.9。

        表3 SVM參數(shù)設(shè)置Table 3 Parameters of SVM

        3.3 評(píng)估標(biāo)準(zhǔn)

        本文采用兩方面的評(píng)價(jià)指標(biāo)。一方面的評(píng)價(jià)指標(biāo)為平均準(zhǔn)確率P、平均召回率R以及由P和R得到的平均F值,其定義分別如下:

        式中:n為新聞文本的總數(shù),ai表示通過(guò)抽取式摘要算法得到的第i個(gè)新聞文本的摘要句子集,ai表示人工摘要得到的第i個(gè)新聞文本的摘要句子集。

        另一方面的評(píng)價(jià)指標(biāo)從新聞?wù)膶?shí)際目的出發(fā),定義了新聞標(biāo)題詞匯覆蓋率TitleCover和文章詞匯覆蓋率ContentCover,公式分別如下:

        式中:wsummary表示人工摘要以及通過(guò)各個(gè)抽取式摘要算法得到的摘要的詞匯集,wtitle表示新聞文本標(biāo)題的詞匯集,wcontent表示新聞文本內(nèi)容的詞匯集。

        3.4 對(duì)比實(shí)驗(yàn)

        3.4.1 基線模型的對(duì)比試驗(yàn)

        在本實(shí)驗(yàn)中,所用的評(píng)價(jià)指標(biāo)為平均準(zhǔn)確率P與平均召回率R。對(duì)比模型共有4 個(gè),分別為傳統(tǒng)的MMR 模型、文獻(xiàn)[19] 中的TextRank 摘要模型以及2 個(gè)基于SVM 的摘要模型。

        1) 傳統(tǒng)MMR 模型:該模型對(duì)于初始權(quán)重的定義較為單一,僅僅考慮了句子相似度,且基于詞匯重合度的句子相似度計(jì)算方法對(duì)于文本的語(yǔ)義不能充分地挖掘。

        2) TextRank 模型:本文復(fù)現(xiàn)了文獻(xiàn)[19] 中改進(jìn)的TextRank 模型,該模型首先使用Doc2Vec 模型對(duì)文本中的句子向量化,然后利用改進(jìn)的K-means 算法對(duì)文本進(jìn)行聚類(lèi),將句子的位置關(guān)系以及與標(biāo)題的相似度等因素融入到TextRank 算法的初始權(quán)重中進(jìn)行迭代,最后將每個(gè)簇類(lèi)中最終權(quán)重最大的句子組合起來(lái)形成摘要集。但是,該模型句子與句子間聚類(lèi)效果并不明顯,可見(jiàn)聚類(lèi)算法對(duì)于冗余的消除效果有限。

        3) SVM-1 模型:該模型的特征工程采用文獻(xiàn)[13] 中的方法,其主要特征包括Unigram、Bigram 等基于詞頻的特征,還包括句子長(zhǎng)度等結(jié)構(gòu)性特征。存在的主要問(wèn)題有特征多數(shù)基于統(tǒng)計(jì)方面的特征、缺少高級(jí)特征、在文本內(nèi)容方面的挖掘不足等。

        4) SVM-2 模型:該模型采用本文的特征工程,使用SVM 進(jìn)行概率輸出,但是放棄后續(xù)利用MMR 算法進(jìn)行二次排序的流程。相比于TextRank、MMR 等無(wú)監(jiān)督模型,SVM 模型選取的特征更為全面,而且機(jī)器學(xué)習(xí)模型可以對(duì)不同特征進(jìn)行合理加權(quán)得到最終的結(jié)果,使得結(jié)果更為可靠。但其效果不如本文,因?yàn)楸疚牡腟VM-MMR 模型通過(guò)MMR 算法對(duì)SVM 模型的結(jié)果進(jìn)行了進(jìn)一步的處理,降低了摘要的冗余性,使得最終的摘要質(zhì)量更高。

        在該實(shí)驗(yàn)中關(guān)于“汽車(chē)后市場(chǎng)”的新聞和摘要抽取結(jié)果如表4 所示。本新聞共29 句話,使用1,2,···,29 將每一句話按照順序進(jìn)行編號(hào),新聞完整內(nèi)容參見(jiàn)鏈接https://www.yicai.com/news/100547881.html。從該抽取結(jié)果中可以看出,本文所提出的MMR 方法相比傳統(tǒng)的MMR方法,少了與新聞文本主旨關(guān)系不大的第19, 21 句,但多出了能夠較好概括文本內(nèi)容的第28句,驗(yàn)證了本文MMR 方法所選取的權(quán)重在語(yǔ)義挖掘上的顯著進(jìn)步。另外,TextRank 方法中第20, 21 句出現(xiàn)了語(yǔ)義冗余,而本文MMR 方法抽取出的5 句摘要句中未出現(xiàn)該情況。

        表4 新聞?wù)e例Table 4 Example of news summary

        此外,本文所提出的SVM-MMR 方法相比SVM-1 方法,能夠多抽取出與主題密切相關(guān)的第3 句,說(shuō)明SVM-MMR 方法在特征工程方面的顯著成效。與SVM-2 方法相比時(shí),SVMMMR 方法在進(jìn)行二次選擇時(shí)去除了SVM-2 方法中由第1 句、第7 句摘要句帶來(lái)的冗余度,證明了SVM-MMR 方法具有較好的冗余處理能力。

        該實(shí)驗(yàn)結(jié)果的統(tǒng)計(jì)數(shù)據(jù)如圖2 所示,這些統(tǒng)計(jì)數(shù)據(jù)證實(shí)了上述分析。在傳統(tǒng)MMR、TextRank 以及本文改進(jìn)MMR 這3 種無(wú)監(jiān)督模型中,本文改進(jìn)MMR 模型效果最好,其統(tǒng)計(jì)值相比于傳統(tǒng)MMR 算法有14.8% 的提升,相比于TextRank 算法也有4.6% 的提升。SVM-2的統(tǒng)計(jì)值相比于SVM-1 有5% 的提升,驗(yàn)證了本文在特征工程方面的有效性。不管是平均準(zhǔn)確率P,還是平均召回率R,本文提出SVM-MMR 模型表現(xiàn)均達(dá)到最佳,相比于傳統(tǒng)MMR模型,準(zhǔn)確率提升了20.4%,驗(yàn)證了本文改進(jìn)的MMR 算法對(duì)于冗余處理的有效性。

        圖2 基線模型對(duì)比實(shí)驗(yàn)結(jié)果Figure 2 Baseline model comparison results

        3.4.2 摘要速度的對(duì)比實(shí)驗(yàn)

        下文研究基于本文MMR 模型的新聞?wù)椒ê突赟VM-MMR 模型的新聞?wù)椒ㄟM(jìn)行摘要的速度差別。

        首先探究?jī)煞N摘要方法得到的摘要結(jié)果所占比例對(duì)摘要速度的影響。對(duì)于每一種方法分別進(jìn)行5 次實(shí)驗(yàn),統(tǒng)計(jì)每次實(shí)驗(yàn)耗時(shí),最終取5 次實(shí)驗(yàn)耗時(shí)的平均值作為結(jié)果。每一次實(shí)驗(yàn)均隨機(jī)選取200 個(gè)新聞文本。使用上述兩種方法批量生成摘要,并以運(yùn)行時(shí)間作為指標(biāo)進(jìn)行對(duì)比。

        圖3 對(duì)比了兩種不同方法設(shè)定不同的摘要比例且處理相同的新聞文本時(shí)所消耗的時(shí)間。可以看出,隨著設(shè)定的摘要比例數(shù)值的上升,兩種摘要方法的運(yùn)行時(shí)間均逐漸增加。對(duì)于MMR 算法,摘要的句子數(shù)越多,算法迭代次數(shù)越多,運(yùn)行時(shí)間就越多。此外在平均耗時(shí)方面,基于MMR 模型的新聞?wù)椒s為基于SVM-MMR 模型的新聞?wù)椒ǖ?/3,主要原因是MMR 模型為無(wú)監(jiān)督算法,不需要對(duì)新聞文本進(jìn)行特征抽取。這也說(shuō)明MMR 模型更加適用于長(zhǎng)文本的摘要任務(wù),而且在批量處理摘要任務(wù)時(shí)的效率更具優(yōu)勢(shì)。SVM-MMR 模型為監(jiān)督算法,首先需要抽取新聞文本的特征,將句子向量化之后再利用SVM 模型對(duì)句子進(jìn)行分類(lèi),耗時(shí)較長(zhǎng),因此比較適用于短文本的摘要任務(wù)。

        圖3 摘要比例對(duì)摘要速度的影響Figure 3 Impact of abstract ratio on abstract speed

        其次探究在相同的摘要比例下原文本長(zhǎng)度對(duì)摘要速度的影響。將測(cè)試集中的新聞文本按照包含的句子數(shù)量進(jìn)行分類(lèi),分別使用基于MMR 模型的新聞?wù)椒ê突赟VM-MMR模型的新聞?wù)椒ㄅ可烧?,使用每篇新聞的平均摘要時(shí)間作為統(tǒng)計(jì)指標(biāo)。

        圖4 展示了當(dāng)摘要比例設(shè)定為20%時(shí)新聞文本長(zhǎng)度與摘要平均耗時(shí)的變化情況。其中,本文所提MMR 摘要模型的摘要時(shí)間變化不大,對(duì)文本的長(zhǎng)度不夠敏感,而SVM-MMR 模型的摘要時(shí)間明顯增大,對(duì)文本的長(zhǎng)度較為敏感。這說(shuō)明本文的MMR 摘要模型更適用于長(zhǎng)文本或?qū)φ室筝^高的場(chǎng)景,而SVM-MMR 模型更適用于短文本或?qū)φ|(zhì)量要求較高的場(chǎng)景。

        圖4 文本長(zhǎng)度對(duì)摘要速度的影響Figure 4 Effect of text length on abstract speed

        3.4.3 文本覆蓋率的對(duì)比試驗(yàn)

        在本實(shí)驗(yàn)中,所用的文本覆蓋率指標(biāo)為T(mén)itleCover 和ContentCover。

        實(shí)驗(yàn)結(jié)果如圖5 所示,可以看出人工摘要的TitleCover 與ContentCover 分別為69.7%和52.4%。

        圖5 摘要對(duì)新聞文本的覆蓋率Figure 5 Abstract coverage of news text

        通過(guò)對(duì)比可得,本文MMR 模型在兩項(xiàng)指標(biāo)上分別比人工摘要低約4% 和5%。SVMMMR 模型的TitleCover 只比人工摘要低0.4%,而ContentCover 卻略高于人工摘要。這是因?yàn)樵诶肧VM-MMR 模型對(duì)句子進(jìn)行摘要的過(guò)程中,比較偏向于選擇信息更為豐富、長(zhǎng)度更長(zhǎng)的句子,所以ContentCover 的值也就更高。例如,同樣是表4 “汽車(chē)后市場(chǎng)”一例中,SVM-MMR 相比人工摘要,更多地選擇了語(yǔ)義更豐富的句子,而非僅僅長(zhǎng)度較短的句子。本文所提出的MMR 模型和SVM-MMR 模型抽取出的摘要句能較好地幫助人們理解文本內(nèi)容的含義。該實(shí)驗(yàn)也說(shuō)明了通過(guò)MMR 模型與SVM-MMR 模型抽取出來(lái)的摘要對(duì)新聞文本的內(nèi)容具有一個(gè)較好的覆蓋率,而且SVM-MMR 模型的效果要優(yōu)于MMR 模型的效果。

        3.5 結(jié)果分析

        首先,本文提出的基于MMR 和基于SVM-MMR 的摘要模型,相比傳統(tǒng)MMR 模型來(lái)說(shuō),正確率分別提升了14.8% 和20.4%,體現(xiàn)了本文兩種摘要方法的強(qiáng)大優(yōu)勢(shì)。

        其次,由上述對(duì)比試驗(yàn)可以看出,基于MMR 模型的摘要效果遠(yuǎn)優(yōu)于傳統(tǒng)MMR 模型的摘要效果,而且其摘要效率約為SVM-MMR 模型的3 倍,對(duì)新聞文本的長(zhǎng)度不太敏感。但基于MMR 的模型對(duì)影響摘要的因素考慮得不夠全面,其摘要質(zhì)量不及SVM-MMR 模型,因此該模型適用于對(duì)摘要效率要求較高的場(chǎng)景,比如面向長(zhǎng)文本的摘要任務(wù)以及對(duì)時(shí)間有要求的批量摘要任務(wù)等。

        對(duì)于基于SVM-MMR 的摘要模型來(lái)說(shuō),其優(yōu)點(diǎn)是在判斷一個(gè)句子是否屬于摘要句時(shí)考慮的因素較為全面,而且不需要考慮特征的權(quán)重。此外,SVM-MMR 模型通過(guò)MMR 算法進(jìn)一步對(duì)摘要進(jìn)行“二次篩選”,提高了摘要質(zhì)量。但是該模型在摘要過(guò)程中,首先需對(duì)新聞文本中的句子進(jìn)行特征選擇,這導(dǎo)致了該模型的摘要效率較低,耗時(shí)約為MMR 模型的3 倍,且對(duì)文本長(zhǎng)度較為敏感,因此基于SVM-MMR 的摘要模型適用于對(duì)摘要質(zhì)量要求較高的場(chǎng)景,比如面向短文本的摘要任務(wù)等。

        如果對(duì)摘要質(zhì)量或運(yùn)行效率沒(méi)有特殊的要求,那么在大規(guī)模批量處理新聞?wù)娜蝿?wù)中,如果是短文本則可以調(diào)用SVM-MMR 模型進(jìn)行摘要,如果是長(zhǎng)文本則可以調(diào)用MMR 模型進(jìn)行摘要。綜合使用兩個(gè)模型,可以在摘要質(zhì)量與運(yùn)行效率之間取得一個(gè)平衡。

        4 結(jié) 語(yǔ)

        本文根據(jù)新聞文本的特點(diǎn),提出了兩種新聞?wù)椒?,分別為基于MMR 的摘要模型以及基于SVM-MMR 的摘要模型。前者結(jié)合數(shù)據(jù)集的特點(diǎn),將標(biāo)題相似度、句子位置、關(guān)鍵詞以及線索詞信息融入到句子的初始權(quán)重之中,然后通過(guò)MMR 迭代完成新聞?wù)蝿?wù)。后者選取詞語(yǔ)、結(jié)構(gòu)、語(yǔ)義3 個(gè)方面的特征,將新聞文本中的句子映射到向量空間,通過(guò)SVM 對(duì)句子進(jìn)行概率預(yù)測(cè),并利用MMR 算法去除摘要集中的冗余。

        然而,本文所提出的摘要方法存在對(duì)特征選取依賴(lài)較大的問(wèn)題,在基于SVM-MMR 模型的摘要方法中,模型效果的好壞十分依賴(lài)于特征的選取。神經(jīng)網(wǎng)絡(luò)可以自動(dòng)學(xué)習(xí)數(shù)據(jù)的特征,若將抽取式摘要視為序列標(biāo)注任務(wù),循環(huán)神經(jīng)網(wǎng)絡(luò)則能很好地解決這一任務(wù),因此利用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行抽取式摘要是未來(lái)的一個(gè)研究方向。

        (編輯:管玉娟)

        两个黑人大战嫩白金发美女| 后入少妇免费在线观看| 久久精品熟女亚洲av香蕉| 久久精品国产亚洲av果冻传媒| 在线涩涩免费观看国产精品| 中文字幕日本最新乱码视频| 亚洲av无码专区首页| 亚洲国产婷婷香蕉久久久久久| 亚洲精品综合色区二区| 亚洲va在线va天堂va手机| 久久精品国产99久久无毒不卡| 亚洲av午夜精品无码专区| 亚洲精品午睡沙发系列| 91精品福利观看| aa视频在线观看播放免费| 一区二区三区四区草逼福利视频| 丰满少妇作爱视频免费观看| 亚洲国产精品sss在线观看av| 午夜亚洲AV成人无码国产| 日韩人妖一区二区三区| 色久悠悠婷婷综合在线| 亚洲精品久久久久中文字幕| 亚洲国产精品自拍一区| 白白视频在线免费观看| 国产真实一区二区三区| 日韩欧美人妻一区二区三区 | 男女射黄视频网站在线免费观看 | 91九色播放在线观看| 香港三日本三级少妇三级视频| 久久久久国产一区二区三区| 国产成人精品免费视频大全| 成人男性视频在线观看| 妺妺窝人体色www看美女| 亚洲免费视频播放| 久久精品一区二区三区夜夜| 日韩三级一区二区三区| 久久久久久国产精品mv| 久久亚洲Av无码专区| 小草手机视频在线观看| 久久久亚洲欧洲日产国码二区| 天堂中文在线资源|