亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA與TextRank結(jié)合的多文檔自動摘要研究

        2018-05-15 08:31:14張波飛李成城
        軟件導刊 2018年4期
        關(guān)鍵詞:冗余文摘

        張波飛 李成城

        摘 要:大數(shù)據(jù)時代信息量急劇增長,伴隨而來的是大量冗余信息的出現(xiàn)。為快速、準確、全面搜索到所需信息,提出一種LDA主題模型與TextRank算法相結(jié)合的算法。首先通過對預(yù)處理后的文檔建立主題模型,得到句子的概率模型即文檔中句子的重要性,然后考慮運算節(jié)點權(quán)重時的主題概率,得到新的迭代公式,通過對同一主題下的多篇新聞報道進行處理得到這些文檔的文摘。實驗結(jié)果表明,該方法生成的文摘較單一算法效果顯著。

        關(guān)鍵詞:冗余;LDA主題模型;TextRank算法;文摘

        DOIDOI:10.11907/rjdk.172842

        中圖分類號:TP301

        文獻標識碼:A 文章編號:1672-7800(2018)004-0013-03

        Abstract:Information explosion leads to a large number of redundant information in the big data era. In this paper, we propose an algorithm to combine the LDA theme model with the TextRank algorithm. Firstly, we build a thematic model of the preprocessed document set to get the probability model of the sentence, that is, the sentence in the document. And then we take the subject probability into account and get the new iterative formula. The experimental results show that the method is more effective than the single algorithm.

        Key Words:redundancy; LDA theme model; Textrank algorithm; summary

        0 引言

        隨著互聯(lián)網(wǎng)上信息的日益豐富,人們從網(wǎng)絡(luò)上搜索到的新聞大多呈現(xiàn)數(shù)量多且信息雜亂的現(xiàn)象,即使在文本理解會議(DUC),對大量數(shù)字語言質(zhì)量問題和內(nèi)容進行手動評估摘要,也需要3 000多小時的人力,非常耗時[1]。多文檔自動文摘的主要任務(wù)就是將同一主題下多篇文檔組成的集合中多次重復(fù)的信息一次出現(xiàn)在文摘中,將與主題相關(guān)的信息根據(jù)重要性及壓縮比依次抽取[2-3],因此進行文摘提取尤為重要。

        1 相關(guān)研究

        本文實驗流程如圖1所示。

        1.1 Textrank算法

        TextRank是基于網(wǎng)頁算法PageRank而來的,只是將page替換成詞語、句子,以完成關(guān)鍵詞抽取與自動文摘工作[4]。TextRank算法是用于文本的基于圖的排序經(jīng)典算法,主要應(yīng)用在關(guān)鍵詞提取、自動文摘等領(lǐng)域。TextRank算法將文檔劃分為由若干文本單元(詞項或句子)構(gòu)成的節(jié)點,文本單元間的相似度構(gòu)成節(jié)點間的邊,形成圖模型,利用PageRank算法對圖模型進行迭代直至收斂,然后對所有節(jié)點進行排序,輸出文摘句。TextRank算法作為一種無監(jiān)督方法,無需訓練語料,該方法已在多個領(lǐng)域得到應(yīng)用。

        1.2 LDA主題模型

        LDA主題模型是目前比較流行的模型算法,LDA由Blei、David M、Ng、Andrew Y、Jordan等于2003年提出,是一種典型的詞袋模型。一篇文檔由一組詞構(gòu)成,詞與詞之間沒有先后的順序關(guān)系。另外,一篇文檔可以包含多個主題,其中每一個詞都由其中的一個主題生成。同時,它是一個3層的生成性貝葉斯網(wǎng)絡(luò),將詞與文檔通過潛在的主題相聯(lián)系。LDA概率如圖2所示。

        圖2中,φ表示主題-詞語的概率分布,θ表示文檔-主題的概率分布,α和β分別表示θ和φ所服從的Dirichlet 先驗分布的超參數(shù),空心圓圈表示隱含變量——主題,實心圓圈表示可觀察到的變量——詞語。

        2 LDA與TextRank結(jié)合算法

        楊瀟等[5]提出的基于主題模型LDA的多文檔自動摘要,張明慧[6]提出的LDA主題驅(qū)動的中文多文檔自動文摘方法,根據(jù)LDA模型中主題的概率分布和句子的概率分布,得到句子權(quán)重計算模型。LDA模型所使用的詞袋假設(shè)不能很好地考慮單詞和句子的位置,以及句子、文檔和文檔集合之間的結(jié)構(gòu)關(guān)系[7]。

        基于圖排序算法的自動文摘方法[8-10],主要思想是將文本單元(句子、詞匯等)作為圖的節(jié)點,該方法優(yōu)點是可以結(jié)合圖的全局信息進行判斷和計算圖節(jié)點權(quán)重,而不僅僅依賴于其中幾個節(jié)點有限的信息。將這種排序算法思想應(yīng)用到自動文摘中,利用文本中的詞匯或語義信息,構(gòu)建無向加權(quán)圖,對語句進行排序。

        基于圖排序算法的自動文摘,可將這種考慮全局信息的排序算法應(yīng)用到自動文摘中,且在計算句子權(quán)重過程中充分考慮詞項之間、句子之間或詞與句子之間的全局關(guān)系。將兩種算法相結(jié)合,恰好可以彌補LDA模型的不足,更好地對句子排序。

        改進算法步驟如下:

        (1)主題模型生成中,詞匯、句子的概率可由下式得到:

        結(jié)合過程分為3步:①基于LDA主題模型對文檔集合進行文本建模,利用公式(1)實現(xiàn)詞語的主題影響力;②根據(jù)公式(2)得到句子重要性; ③把句子重要性帶入公式(3),結(jié)合TextRank算法實現(xiàn)節(jié)點的重要性計算,以此得到句子最終的權(quán)重結(jié)果。

        3 實驗

        由于目前沒有一個標準的實驗語料用于中文多文檔自動文摘,為便于實驗,本文選用哈工大信息檢索研究中心多文檔自動文摘語料,共40個主題,每個主題下有5篇左右的新聞報道,圖3為其中一篇文章示例。

        本文采取單文檔自動文摘的生成思路,首先將同一主題下的多個txt文檔合并為一個大的文檔,然后進行實驗。

        3.1 文檔預(yù)處理

        文檔預(yù)處理分為文本的分詞、去停用詞以及詞性標注。

        (1)分詞:英文是以詞為單位的,詞和詞之間有空格隔開,而中文是基本單位是字,句子中所有的字連起來才能描述一個意思。因此,尋找一個好的分詞工具對中文語料進行分詞處理至關(guān)重要。加之新聞?wù)Z料的特點,本文采用jieba分詞,在傳統(tǒng)的基于統(tǒng)計分詞方法之上加入未登錄詞識別及詞性標注,在一定程度上提高了分詞效果。

        分詞部分結(jié)果如圖4所示。

        (2)停用詞相當于過濾詞,這些詞往往數(shù)量較大且沒有實際意義,同時會產(chǎn)生大量噪音。這里采用中科院停用詞表,得到圖5結(jié)果。

        (3)詞性標注:即給每個詞標注上詞性,見圖6。

        3.2 候選文摘句生成

        (1)對其中一個文檔集單一txt文檔進行處理,得到打分靠前的幾個句子如圖7所示。

        (2)對其中一個文檔集合并后的文檔進行處理得到句子打分,按一定比例抽取分值靠前的幾個句子如圖8所示。

        3.3 文摘評價

        自動文摘的評價方法大致分為兩類:①內(nèi)部評價(Intrinsic),它可以直接分析摘要的質(zhì)量[11];②外部評價(Extrinsic),它是一種間接評價方法,將自動文摘應(yīng)用于某個特殊任務(wù)中,依據(jù)文摘完成這項任務(wù)的效果進行評價。目前比較熱門的評價方法是將專家根據(jù)原文生成的文摘作為標準文摘,判斷生成的自動文摘中所包含的標準文摘信息程度。

        使用3種方法生成的候選摘要句與語料所提供的已標注好的人工摘要作對比試驗,利用計算句子相似度算法中的TF-IDF算法進行計算:

        R= 機器摘要與標準摘要句共有關(guān)鍵詞個數(shù)標準摘要句中關(guān)鍵詞總數(shù)(5)

        依據(jù)式(5),得到圖9結(jié)果。

        從圖9可以看出,利用LDA與Textrank相結(jié)合的算法得到的準確率稍優(yōu)于兩種算法單獨生成的結(jié)果。3種結(jié)果中LDA最差,其原因在于本文使用的新聞?wù)Z料較短,在建立主題模型時主題數(shù)目設(shè)置為1,數(shù)目偏少。而主題模型效果一般會隨著主題數(shù)目增多其混亂度減小,這樣就導致LDA產(chǎn)生的文摘句準確率偏差。

        4 結(jié)語

        本文采用LDA主題模型與TextRank算法相結(jié)合的算法,得到了同一主題下的多篇新聞報道文摘。但由于目前中文多文檔語料庫缺乏,加之還沒有一個完整的中文文摘評價系統(tǒng),因此本文實驗使用的數(shù)據(jù)語料量稍顯不足。下一步可使用搜狗語料庫等大規(guī)模語料進行實驗,同時構(gòu)造一個完整的評價系統(tǒng)。

        參考文獻:

        [1] 秦兵,劉挺,李生.多文檔自動文摘綜述[J].中文信息學報,2005(6):15-22,58.

        [2] 胡立.基于語義層次聚類的多文檔自動摘要研究[D].廣州:華南理工大學,2014.

        [3] 蘭希.基于篇章修辭結(jié)構(gòu)的多文檔自動文摘系統(tǒng)的設(shè)計與實現(xiàn)[D].廈門:廈門大學,2014.

        [4] 陳萬振.TextRank關(guān)鍵詞提取算法與SOM文本聚類模型的優(yōu)化研究[D].南寧:廣西大學,2016.

        [5] 楊瀟.基于主題模型LDA的多文檔自動摘要[C].第五屆全國信息檢索學術(shù)會議論文集,2009.

        [6] 張明慧.LDA主題驅(qū)動的中文多文檔自動文摘方法[C].第五屆全國青年計算語言學研討會論文集,2010.

        [7] 曹洋.基于TextRank算法的單文檔自動文摘研究[D].南京:南京大學,2016.

        [8] ANTIQUEIRA L,JROLIVEIRA O.Complex network approach to text summarization[J]. Information Science,2009(179):584-599.

        [9] WAN X J,YANG JW.Multi-document summarization using cluster-based link analysis[C].Proc of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Sheffield,UK,2008:299-306.

        [10] JONES K S. Automatic summarizing factors and directions advance in automatic text sum-marization[M]. Cambridge MA:MIT Press:1998.

        [11] 顧益軍,夏天.融合LDA與TextRank的關(guān)鍵詞抽取研究[J].現(xiàn)代圖書情報技術(shù),2014(1):41-47.

        (責任編輯:杜能鋼)

        猜你喜歡
        冗余文摘
        IAPA文摘
        文摘
        寶藏(2017年2期)2017-03-20 13:16:46
        單機容錯與雙機熱備份技術(shù)淺析
        核電站核島電氣隔離準則研究
        科技視界(2016年23期)2016-11-04 13:13:20
        文摘
        數(shù)據(jù)中心供配電系統(tǒng)設(shè)計要點簡析
        淺敘國產(chǎn)存儲技術(shù)之發(fā)展
        計算機系統(tǒng)容錯技術(shù)研究
        冗余技術(shù)在DX—600中波發(fā)射機合成器伺服系統(tǒng)的應(yīng)用
        科技資訊(2015年21期)2015-11-14 19:14:38
        機械制造文摘——焊接分冊
        亚洲一区视频中文字幕| 国产成人无码区免费网站| 亚洲色欲Aⅴ无码一区二区| 中文字幕精品乱码一区| 精品一区二区av天堂色偷偷| 少妇人妻大乳在线视频不卡| 久久久久这里只有精品网| 日本黄色一区二区三区视频| 中文字幕国产亚洲一区| 少妇粉嫩小泬喷水视频www| 97se在线| 亚洲av网站首页在线观看| 丰满少妇在线播放bd| 开心五月激情综合婷婷色| 亚洲AV综合久久九九| 一区二区三区视频免费观看在线 | 最新欧美精品一区二区三区| 国产福利一区二区三区在线观看| 中文字幕永久免费观看| 国产av一区二区制服丝袜美腿| 少妇久久久久久被弄高潮| 久久精品国产亚洲av麻| 乱人伦人妻中文字幕不卡| 亚洲av产在线精品亚洲第三站 | 亚洲精品久久区二区三区蜜桃臀| 女人张开腿让男桶喷水高潮| 91呻吟丰满娇喘国产区| 日日麻批视频免费播放器| 人人妻人人澡人人爽欧美一区| 亚洲高潮喷水无码av电影| 国产视频嗯啊啊啊| 国产丝袜爆操在线观看| 国产成人av一区二区三区| 热久久久久久久| 国产av一区二区三区狼人香蕉| 摸丰满大乳奶水www免费| 亚洲一区二区观看播放| 精品熟妇av一区二区三区四区| 亚洲天堂av在线网站| 久久夜色精品国产| 免费一级a毛片在线播出|