亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Siamese LSTM的中文多文檔自動(dòng)文摘模型

        2021-03-16 13:29:16龔永罡王嘉欣廉小親裴晨晨
        關(guān)鍵詞:特征文本方法

        龔永罡 王嘉欣 廉小親 裴晨晨

        (北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院 北京 100048)

        0 引 言

        在復(fù)雜多樣的各類信息數(shù)據(jù)組成形式中,文本數(shù)量呈指數(shù)級(jí)快速增長(zhǎng)[1]??焖?gòu)匿佁焐w地的文本數(shù)據(jù)中提取出需要的關(guān)鍵信息已經(jīng)成為文本信息處理的一個(gè)發(fā)展趨勢(shì)。然而如今網(wǎng)絡(luò)上信息繁多且冗余過(guò)多,使該工作極其繁瑣、耗時(shí)。提取文本中心內(nèi)容、概括大意,能夠大大提高檢索和閱讀理解文獻(xiàn)的效率。

        抽取式文摘和生成式文摘是目前兩種主要文摘方法。抽取式文摘來(lái)自原文本的句子,而生成式文摘是在理解原文的基礎(chǔ)上使用自動(dòng)生成語(yǔ)言的技術(shù)來(lái)完成文摘[2]。然而由于生成式對(duì)自然語(yǔ)言處理技術(shù)要求非常高,對(duì)其研究還處于初步階段,目前大多采用抽取式來(lái)進(jìn)行自動(dòng)文摘。

        從目前的研究成果來(lái)看,中文自動(dòng)文摘技術(shù)距離國(guó)際先進(jìn)水平還有一定的差距[3]。蘇海菊等[4]最早進(jìn)入自動(dòng)文摘研究領(lǐng)域。隨后,哈爾濱工業(yè)大學(xué)的王開(kāi)鑄教授等人開(kāi)發(fā)了軍用文摘系統(tǒng)MATA[5]。王思聰[6]提出基于統(tǒng)計(jì)方法的文摘模型,僅通過(guò)計(jì)算實(shí)現(xiàn),未將語(yǔ)義考慮進(jìn)去。蘇彬[7]將Word2vec應(yīng)用到文摘模型中。劉凱等[8]提出基于篇章修辭結(jié)構(gòu)抽取摘要的方法,使文摘更加通順易讀。雖然傳統(tǒng)的抽取式文摘技術(shù)已經(jīng)較為成熟,但是仍然有待改進(jìn),如選取特征的權(quán)值安排、文摘句的排序和最終文摘的潤(rùn)色等。

        自動(dòng)文摘評(píng)價(jià)指標(biāo)主要從文摘的連貫性、可讀性、信息覆蓋度、長(zhǎng)度和冗余度等方面來(lái)評(píng)價(jià),目前比較流行的評(píng)價(jià)方法是ROUGE方法。該評(píng)價(jià)方法的主要思想是通過(guò)比較生成的文摘和人工文摘之間的相似內(nèi)容[9]。ROUGE-n即用于衡量n-grams的重疊性[10]。

        1 設(shè)計(jì)思路

        基于深度學(xué)習(xí)的自動(dòng)文摘是通過(guò)使用深度學(xué)習(xí)的方法閱讀、分析大量文獻(xiàn),從中提取出撰寫文本摘要所需相關(guān)素材,然后整理出一份完整的文本摘要。主要分為四個(gè)部分:文本預(yù)處理、提取文本關(guān)鍵特征、選取合適的句子和獲取最終摘要。本文提出的中文多文檔智能文摘系統(tǒng)流程如圖1所示。

        圖1 智能文摘模型流程圖

        本文主要將深度學(xué)習(xí)方法應(yīng)用到傳統(tǒng)提取文本特征的過(guò)程中,通過(guò)改進(jìn)當(dāng)前較為成熟的單文檔自動(dòng)文摘模型,把傳統(tǒng)方法所忽略的語(yǔ)義重要因素加入多文檔文摘過(guò)程中,使用Siamese LSTM網(wǎng)絡(luò)模型計(jì)算語(yǔ)義相似度,與常用的余弦向量法等計(jì)算相似度的方法相比,其文摘效果得到了很大的提升,使生成的文摘達(dá)到更好的效果。進(jìn)一步對(duì)Siamese LSTM模型進(jìn)行改進(jìn),提升了整個(gè)文摘系統(tǒng)的工作效率。

        2 智能文摘模型

        2.1 文本預(yù)處理

        通常多文檔自動(dòng)文摘任務(wù)是將多篇相同主題的文章合并進(jìn)行自動(dòng)文本摘要,因此首先確定共同主題,然后將文章分開(kāi)保存為文本類型,為避免文章使用繁體中文,將文章轉(zhuǎn)換為簡(jiǎn)體中文。通過(guò)判斷標(biāo)點(diǎn)符號(hào)對(duì)生成的簡(jiǎn)體中文文章進(jìn)行分句,記錄每個(gè)句子在原文中的位置,并進(jìn)行分詞。

        2.2 提取文本特征

        為了抽取文摘句,需要對(duì)原始文本中的每個(gè)句子進(jìn)行文本特征的提取,并保證提取的文本特征與句子是否可以作為文摘句具有很強(qiáng)的關(guān)聯(lián)性。經(jīng)過(guò)理論與實(shí)驗(yàn)的論證,本文提取以下幾個(gè)文本特征。

        2.2.1關(guān)鍵詞

        相比其他普通詞而言,關(guān)鍵詞更具有表征文章主要內(nèi)容的能力,因此將關(guān)鍵詞列為文本的主要特征之一。傳統(tǒng)自動(dòng)文摘多采用TF-IDF(Term Frequency-Inverse Document Frequency)方法選取關(guān)鍵詞。

        TF-IDFi,j=TFi,j×IDFj

        (1)

        式中:TFi,j表示特征詞在文本中出現(xiàn)的次數(shù);IDFj表示反文檔率[11]。由于TF-IDF僅在字面層面進(jìn)行計(jì)算詞頻來(lái)衡量詞的重要程度,忽略了詞義。Word2vec簡(jiǎn)化了將文本內(nèi)容處理成K維向量空間的運(yùn)算[12],由于從語(yǔ)義層面考量,用Word2vec來(lái)選取關(guān)鍵詞,彌補(bǔ)了TF-IDF的缺陷。二者結(jié)合選取關(guān)鍵詞,然后計(jì)算句子的特征項(xiàng)得分:

        (2)

        式中:k[]存放關(guān)鍵詞,長(zhǎng)度為10;c()計(jì)算句中關(guān)鍵詞的數(shù)量。

        2.2.2句子長(zhǎng)度

        由于需要計(jì)算句子的各個(gè)特征值分?jǐn)?shù)來(lái)選取關(guān)鍵句,故為避免有些句子過(guò)長(zhǎng)導(dǎo)致最終結(jié)果不準(zhǔn)確,句子長(zhǎng)度也是需要提取的特征之一,減小句子太長(zhǎng)或太短造成的誤差。句子長(zhǎng)度計(jì)算式為:

        (3)

        式中:μ為第i個(gè)句子所屬集合的平均句長(zhǎng);xi為該句子的長(zhǎng)度。由此可見(jiàn),若句子長(zhǎng)度更接近平均長(zhǎng)度,則更容易被選為文摘句。最終結(jié)果在(0, 1]區(qū)間內(nèi),數(shù)值越大,其作為文摘句的可能性越大。

        2.2.3句子位置

        若某一原始文本中有N個(gè)句子,其中第i個(gè)句子的位置特征計(jì)算式為:

        (4)

        由式(4)可知,句子位置越靠前,該特征的得分就越高,該句子就更可能被選為文摘句。

        2.2.4依存句法

        經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn)依存句法與文摘句的選取之間存在著特定的關(guān)聯(lián),依存句法關(guān)系如表1所示。對(duì)訓(xùn)練集中的每個(gè)句子都進(jìn)行依存句法分析,使用向量表示,并作為聚類算法的輸入,確定文摘句的中心向量,計(jì)算距離得到依存句法特征的最終分值。

        表1 依存句法特征

        2.2.5詞性特征

        大量數(shù)據(jù)觀察得出,詞性對(duì)文摘句的選取也同樣具有很大的輔助作用,因此借助jieba工具,對(duì)句子進(jìn)行詞性標(biāo)注。詞性特征如表2所示。

        表2 詞性特征

        隨后的處理方法同依存句法特征相似,首先對(duì)全部句子進(jìn)行詞性分析,將詞性標(biāo)注的結(jié)果作為聚類算法的輸入數(shù)據(jù),確定文摘句的中心向量,計(jì)算每個(gè)句子與該中心向量的距離并得出詞性標(biāo)注特征的分值。

        2.2.6句子與標(biāo)題相似度

        用傳統(tǒng)的歐氏距離計(jì)算文本相似度,首先將每個(gè)句子使用向量進(jìn)行表示,然后計(jì)算兩個(gè)向量的歐氏距離,最終表示二者的相似度。但歐氏距離只能適用于向量的每個(gè)分量坐標(biāo)對(duì)于最終結(jié)果的貢獻(xiàn)相同的情況,而且只注重每個(gè)分量數(shù)值上的差異,從向量的不同分量的數(shù)值大小中體現(xiàn)差異,對(duì)向量的方向不敏感。相比之下,計(jì)算余弦相似度的方法,通過(guò)計(jì)算向量夾角的余弦值來(lái)表征相似度,對(duì)方向上的差異比較敏感,但是忽略了具體數(shù)值的絕對(duì)值大小差異。

        TF-IDF模型經(jīng)常被應(yīng)用到自動(dòng)文摘系統(tǒng)中來(lái)計(jì)算文本相似度,該模型通過(guò)使用TF-IDF方法來(lái)計(jì)算詞頻將句子向量化,最終計(jì)算向量的余弦值來(lái)表征相似度。但該方法存在一些缺陷:通過(guò)使用TF-IDF方法來(lái)計(jì)算詞頻,僅考慮其統(tǒng)計(jì)特性,而忽略了語(yǔ)義特征;使用余弦法無(wú)法準(zhǔn)確表征向量長(zhǎng)度的差異。

        循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)經(jīng)常被用于處理序列數(shù)據(jù),例如文本、語(yǔ)音等,但由于其梯度消失的原因,只能擁有短期記憶。而長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term Memory, LSTM)擁有的獨(dú)特設(shè)計(jì)使其避免了這個(gè)問(wèn)題。使用兩個(gè)LSTM網(wǎng)絡(luò),將兩個(gè)分詞后的句子依次分別輸入到LSTM網(wǎng)絡(luò)中,并對(duì)其輸出進(jìn)行比較,即可獲得兩個(gè)句子的相似度。Siamese LSTM網(wǎng)絡(luò)模型如圖 2所示,將兩個(gè)LSTM網(wǎng)絡(luò)輸出的句向量計(jì)算曼哈頓距離,并求其負(fù)指數(shù),最終結(jié)果即為兩個(gè)句子的相似度。

        圖2 Siamese LSTM網(wǎng)絡(luò)結(jié)構(gòu)

        曼哈頓距離不存在余弦法等忽略長(zhǎng)度或方向之間差異的缺陷且穩(wěn)定性更高。同時(shí),使用LSTM網(wǎng)絡(luò)來(lái)生成句向量,由于模型輸入為Word2vec網(wǎng)絡(luò)訓(xùn)練生成的詞向量,與僅考慮詞頻的傳統(tǒng)方法相比更加注重詞義,其輸出結(jié)果準(zhǔn)確度更高。

        由于本文實(shí)驗(yàn)多個(gè)地方需要使用到計(jì)算文本相似度方法,實(shí)驗(yàn)語(yǔ)料較多,計(jì)算量較大。如果句子較長(zhǎng),雖然包含的有用信息會(huì)增多,但是無(wú)用信息也會(huì)相對(duì)增多,導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)龐大,最終影響準(zhǔn)確率。因此,對(duì)文本相似度計(jì)算方法繼續(xù)進(jìn)行改進(jìn):將句子分詞之后首先去除停用詞。結(jié)合常用停用詞表,去除不重要信息之后,計(jì)算相似度所需時(shí)間會(huì)大大減少,且對(duì)準(zhǔn)確率的影響很小。

        2.3 選取文摘句

        針對(duì)2.2節(jié)中所敘述的幾個(gè)文本特征得分情況采用線性加權(quán)直接獲得句子的最終分?jǐn)?shù)。由于沒(méi)有去除冗余,分?jǐn)?shù)較高的若干句子之間的相似性也比較大,因此引入懲罰因子,將句子的新穎性考慮進(jìn)去,對(duì)所有的句子在原基礎(chǔ)上重新打分,即使用最大邊界相關(guān)算法(Maximal Marginal Releuance,MMR)。計(jì)算公式表示為:

        Si=λscore(i)-(1-λ)max[sim(i,j)]

        (5)

        式中:score(i)為線性回歸之后的句子得分,由于排在第一位的句子無(wú)須重新計(jì)算,故i從2開(kāi)始;相似度sim(i,j)仍然使用Siamese LSTM網(wǎng)絡(luò)模型進(jìn)行計(jì)算,j為整數(shù),取值范圍為[1,i-1],λ∈(0,1),可根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行調(diào)整。最后將所有句子根據(jù)最終得分按序排列,選取的文摘句通常是排序后的前若干句,可以根據(jù)所需文摘的長(zhǎng)度決定選取句子的數(shù)量,作為最終選取的文摘句。

        2.4 獲取摘要

        最終的文本摘要需要具有較強(qiáng)的可讀性,即連貫通順。對(duì)于單文檔摘要而言,通常將句子按照其在原文中的順序輸出作為摘要[13],可讀性較高。然而對(duì)于多文檔摘要而言,目前文摘句排序方面仍然只是探索階段,由于選取的文摘句來(lái)自不同的文檔,更需要考慮句子間的銜接性和連貫性。本文實(shí)驗(yàn)采取的方法是首先計(jì)算每個(gè)文摘句在原文檔中的相對(duì)位置,然后將各個(gè)文摘句的相對(duì)位置進(jìn)行排序,按順序排列文摘句,即為最終的文本摘要。

        3 實(shí) 驗(yàn)

        3.1 實(shí)驗(yàn)環(huán)境

        針對(duì)上述模型設(shè)計(jì)了以下實(shí)驗(yàn)。本實(shí)驗(yàn)運(yùn)行環(huán)境操作系統(tǒng)為Windows 1064位中文版,CPU為Intel(R) Core(TM) i5,運(yùn)行內(nèi)存8 GB,GPU為GTX 1060Ti。使用維基百科中文語(yǔ)料訓(xùn)練Word2vec模型,使用北京理工大學(xué)官方提供的NLPIR短文本語(yǔ)料庫(kù),由中文相似句生成的方法生成數(shù)據(jù)集,以此訓(xùn)練Siamese LSTM網(wǎng)絡(luò)。

        3.2 結(jié)果分析

        將常用的TF-IDF模型、LDA模型與本文的Siamese LSTM模型、改進(jìn)的Siamese LSTM模型進(jìn)行對(duì)比實(shí)驗(yàn),然后綜合ROUGE評(píng)價(jià)和人工評(píng)價(jià)完成最終評(píng)價(jià)。ROUGE評(píng)價(jià)主要計(jì)算ROUGE-1和ROUGE-2兩個(gè)評(píng)價(jià)指標(biāo),評(píng)價(jià)所需人工文本摘要由兩人同時(shí)給出,最后計(jì)算綜合共現(xiàn)率。人工評(píng)價(jià)方法則人工按照文摘的評(píng)價(jià)標(biāo)準(zhǔn)對(duì)生成的文摘打分,從句子的連貫性、邏輯性、符合原文中心思想等幾個(gè)方面打分,最高分為5分,最低分為0分。選取五篇相同主題的中文文章進(jìn)行實(shí)驗(yàn),上述評(píng)價(jià)結(jié)果如表3所示。實(shí)驗(yàn)結(jié)果表明,將Siamese LSTM應(yīng)用到中文多文檔自動(dòng)文摘中,文摘效果得到了顯著的提升,而且改進(jìn)Siamese LSTM模型在本次實(shí)驗(yàn)中更優(yōu)于原始模型。在實(shí)驗(yàn)過(guò)程中同樣可以發(fā)現(xiàn)改進(jìn)之后的Siamese LSTM模型在處理文檔時(shí)所需時(shí)間更短,提升了整個(gè)文摘系統(tǒng)的效率。

        表3 實(shí)驗(yàn)結(jié)果對(duì)比

        選取三種模型所獲取的最終文摘分別如圖3、圖4和圖5所示。使用TF-IDF模型所得文摘中句子連貫性存在一定的問(wèn)題,與原文主題切合度一般,語(yǔ)義重復(fù)部分較多;LDA模型所得文摘語(yǔ)序存在問(wèn)題,相鄰句間的相關(guān)度不大,但幾乎每句都切合主題;Siamese LSTM所得文摘更加貼近主題,語(yǔ)義重復(fù)部分相對(duì)較少,但在連貫性方面仍存在問(wèn)題,后續(xù)可針對(duì)文摘句的排序問(wèn)題進(jìn)行改進(jìn)。

        圖3 TF-IDF模型所得部分文摘

        圖4 LDA模型所得部分文摘

        圖5 Siamese LSTM模型所得部分文摘

        4 結(jié) 語(yǔ)

        本文給出了基于Siamese LSTM模型設(shè)計(jì)的中文多文檔自動(dòng)文摘模型,模型的核心內(nèi)容是將Siamese LSTM網(wǎng)絡(luò)應(yīng)用于語(yǔ)義相似度的計(jì)算中,并通過(guò)去除停用詞的方法,減少了該模型的計(jì)算時(shí)間。由于本文模型為抽取式文本摘要,原文對(duì)摘要質(zhì)量的影響較大,在結(jié)果上并未達(dá)到最好的效果,但該模型在中文多文檔自動(dòng)文摘領(lǐng)域中仍然發(fā)揮著較大的作用,并且可以為未來(lái)生成式多文檔自動(dòng)文摘技術(shù)的成熟化奠定基礎(chǔ)。然而本文模型在文摘句排序部分沒(méi)有進(jìn)行過(guò)多改進(jìn),因此最終文摘的語(yǔ)句連貫性仍然存在著較大的提升空間。此外,本文只研究了抽取式文摘模型,后續(xù)可引入生成式文摘模型進(jìn)行研究,為提升文摘質(zhì)量和拓寬文摘模型的研究提供思路。

        猜你喜歡
        特征文本方法
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚(yú)
        av网站免费在线浏览| 免费看奶头视频的网站| 99精品国产自产在线观看| 一区二区三区在线乱码 | 久久和欧洲码一码二码三码| 中文字幕天堂网| 丝袜美腿爆炒国产在线观看 | 亚洲成人av大片在线观看| 国产精品久久国产精麻豆99网站| 18分钟处破好疼哭视频在线观看| 国产欧美日韩午夜在线观看| 久久精品国产亚洲av热九| 丝袜美腿视频一区二区| 国产精品久久777777| 精品免费在线| 美女露屁股无内裤视频| 精品人妻av一区二区三区麻豆| 天堂中文官网在线| 精品无码久久久久久久动漫| 无码流畅无码福利午夜| 少妇太爽了在线观看免费| 亚洲av永久无码精品放毛片| 国产99视频精品免费视频免里| 国内自拍第一区二区三区| 刚出嫁新婚少妇很紧很爽| 国产美女精品一区二区三区| 日本a在线看| 日本在线免费一区二区三区| 国产精品毛片无遮挡高清| 日韩亚洲av无码一区二区三区| 国产亚洲sss在线观看| 国产农村妇女毛片精品久久麻豆| 国产 高潮 抽搐 正在播放 | 亚洲另类激情专区小说婷婷久| 国产自拍精品在线视频| 欲求不満の人妻松下纱荣子| 亚洲欧美日韩综合久久| 欧洲乱码伦视频免费| 国产精品一区二区三区播放| 把女邻居弄到潮喷的性经历 | 日韩美女av一区二区三区四区|