亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的金融文書(shū)摘要自動(dòng)生成研究與實(shí)現(xiàn)

        2019-09-10 07:22:44胡赫薇龔潤(rùn)澤葉慕戎
        河南科技 2019年32期
        關(guān)鍵詞:注意力機(jī)制

        胡赫薇 龔潤(rùn)澤 葉慕戎

        摘 要:金融文書(shū)的自然語(yǔ)言處理是目前金融科技領(lǐng)域的研究熱點(diǎn),相關(guān)研究大多數(shù)著眼于傳統(tǒng)的分詞和基于機(jī)器學(xué)習(xí)的語(yǔ)義場(chǎng)景分析這種有監(jiān)督的學(xué)習(xí)方法,難以滿足當(dāng)前金融監(jiān)管行業(yè)快速處理金融文本的需求。針對(duì)這一問(wèn)題,本文構(gòu)建了一個(gè)基于多層LSTM的中文金融文書(shū)摘要自動(dòng)生成算法框架,通過(guò)Seq2Seq模型,基于注意力機(jī)制的強(qiáng)化學(xué)習(xí)框架,發(fā)現(xiàn)最優(yōu)策略,對(duì)文本進(jìn)行編碼、解碼,從LSTM編碼器中抽取文本序列并輸出摘要。實(shí)驗(yàn)結(jié)果表明,多層LSTM結(jié)構(gòu)相比傳統(tǒng)RNN的ROUGE值更高,具有較好的學(xué)習(xí)能力。

        關(guān)鍵詞:金融文本;摘要自動(dòng)生成;序列到序列;注意力機(jī)制

        中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-5168(2019)32-0018-03

        Research?and?Implementation?of?Automatic?Generation?of

        Financial?Document?Abstract?Based?on?Deep?Learning

        HU?Hewei GONG?Runze YE?Murong

        (Shanghai?Lixin?University?of?Accounting?and?Finance,Shanghai?201209)

        Abstract:?The?natural?language?processing?of?financial?documents?is?a?research?hotspot?in?the?field?of?financial?science?and?technology?at?present.?Most?of?the?relevant?researches?focus?on?the?supervised?learning?method?of?traditional?word?segmentation?and?semantic?scenario?analysis?based?on?machine?learning,?which?is?difficult?to?meet?the?needs?of?the?current?financial?regulatory?industry?to?process?financial?documents?quickly.?To?solve?this?problem,?this?paper?constructed?an?algorithm?framework?based?on?multi-layer?LSTM?(short?and?long-term?memory?network)?for?automatic?generation?of?Chinese?financial?document abstracts,?and?used?Seq2Seq?(sequence?to?sequence)?model.?The?experimental?results?show?that?the?multi-layer?LSTM?structure?has?better?learning?ability?than?the?traditional?RNN?(cyclic?neural?network)?in?terms?of?the?value?of?the?rule?(semantic?recovery).

        Keywords:?financial?text;automatic?summary?generation;sequence?to?sequence;attention?mechanism

        1 研究背景

        隨著全球金融高度信息化的大趨勢(shì),金融文本信息正在急速膨脹,金融從業(yè)者想要快速且全面地找到所需信息并閱讀理解難度較大,所以,金融文書(shū)的精準(zhǔn)語(yǔ)義摘要生成算法已成為金融科技領(lǐng)域的研究熱點(diǎn)。2011年,Mihalcea提出了TextRank和LexRank算法。這兩個(gè)算法都基于重要性和數(shù)量的假設(shè),實(shí)現(xiàn)無(wú)監(jiān)督算法進(jìn)行關(guān)鍵詞和關(guān)鍵句的抽取。2014年,谷歌團(tuán)隊(duì)和Yoshua?Bengio提出了Seq2Seq的框架,包含編碼與解碼過(guò)程。在編碼過(guò)程中,該框架實(shí)現(xiàn)了輸出可變長(zhǎng)度序列的功能,將深度學(xué)習(xí)的應(yīng)用范圍從傳統(tǒng)的分類(lèi)回歸任務(wù)擴(kuò)展到文本生成領(lǐng)域,是深度學(xué)習(xí)發(fā)展歷史上的里程碑[1-5]。

        本文提出基于序列對(duì)序列和注意力機(jī)制的處理框架,雙向LSTM作為處理單元的文本自動(dòng)摘要處理模型,解決了語(yǔ)義包含性和通用性的問(wèn)題。

        2 金融文書(shū)摘要自動(dòng)生成

        2.1 多層LSTM模型

        LSTM模型的特點(diǎn)是系統(tǒng)的輸出會(huì)保留在網(wǎng)絡(luò)中,和系統(tǒng)下一時(shí)刻的輸入共同決定下一時(shí)刻的輸出。傳統(tǒng)的LSTM模型無(wú)法編碼從后到前的信息,因此,筆者采用雙向LSTM其中,文本詞匯與上下文具有關(guān)聯(lián)性,存在雙向語(yǔ)義依賴(lài)的特性。

        雙向LSTM的基本思想是將每個(gè)序列前向和后向輸入兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏層,兩者都連接到相同的輸出層O,使得輸出層O同時(shí)獲得全文的所有信息,計(jì)算公式為:

        [O=gWoh+W′oh+bo]???????????????????(1)

        式中,[g]為激活函數(shù);[WO]為權(quán)重矩陣;[h]為激活值;[bo]為偏置項(xiàng);完成輸出層O的計(jì)算后,通過(guò)注意力機(jī)制求出語(yǔ)義向量[ct]:

        [ct=t=1Nxotαt,t]???????????????????????????????(2)

        式中,[α]為語(yǔ)義權(quán)重;[Ct]表示t時(shí)刻的語(yǔ)義向量取值;[Nx]表示時(shí)刻的合集。

        此后,所有語(yǔ)義向量將輸入含有單層LSTM的解碼部分。使用多層LSTM框架,能夠更抽象地表達(dá)特征,減少神經(jīng)元的個(gè)數(shù),提升模型性能。同時(shí),引入注意力機(jī)制,減輕了序列對(duì)序列模型中上下文語(yǔ)義向量的信息負(fù)擔(dān),對(duì)后續(xù)生成內(nèi)容有針對(duì)性地生成對(duì)應(yīng)注意力權(quán)重,優(yōu)化了模型的實(shí)際生成效果。

        2.2 集束搜索

        當(dāng)文本摘要生成模型訓(xùn)練完成后,本文采用了集束搜索算法,輸出摘要結(jié)果。集束搜索是做了約束優(yōu)化的廣度優(yōu)先搜索,從海量文本中挑選出最優(yōu)的句段作為摘要輸出。其能減少空間消耗,提高生成效率。然而,一般的集束搜索在處理序列時(shí)存在數(shù)值下溢,傾向于簡(jiǎn)短的翻譯結(jié)果。

        針對(duì)上述問(wèn)題,利用集束搜索在每一步獲得了N種可能的結(jié)果后,需要對(duì)其進(jìn)行概率分析,過(guò)濾出前B個(gè)分支,對(duì)每個(gè)分支都要保存當(dāng)前的節(jié)點(diǎn)狀態(tài),此后再對(duì)集束寬度以內(nèi)的詞重復(fù)進(jìn)行搜索過(guò)濾,直到序列被完整輸出。

        3 實(shí)驗(yàn)與仿真

        3.1 金融文書(shū)采集與處理

        本文的實(shí)驗(yàn)數(shù)據(jù)集來(lái)源于東方財(cái)富網(wǎng),包含有3?000份金融文書(shū),將其分段后共計(jì)12?000段,數(shù)據(jù)集以4∶1的比例分為兩部分,實(shí)驗(yàn)采用第一部分作為模型訓(xùn)練集,使用Word2Vec訓(xùn)練工具來(lái)訓(xùn)練詞向量;采用第二部分作為模型測(cè)試集。在執(zhí)行過(guò)程中,主要對(duì)表1信息進(jìn)行替換和處理。

        本文使用開(kāi)源中文分詞工具進(jìn)行分詞,將金融文書(shū)切成若干詞組構(gòu)建語(yǔ)料庫(kù),之后將其轉(zhuǎn)換成計(jì)算機(jī)可讀的ID。

        對(duì)切好的詞組分別計(jì)算詞頻,詞頻經(jīng)過(guò)處理后以高頻詞作為中心詞列表,將語(yǔ)料庫(kù)中的詞遍歷,計(jì)算語(yǔ)料庫(kù)中詞語(yǔ)和中心詞的相似度。當(dāng)相似度高過(guò)閾值時(shí),判斷這個(gè)詞與中心詞存在近義關(guān)系,將該詞的詞頻與中心詞合并后剔除該詞。依據(jù)此方法進(jìn)行重復(fù)操作,直至遍歷完高頻詞,得到中心詞字典。此舉可避免不同詞語(yǔ)表示相同含義,導(dǎo)致詞頻估計(jì)不準(zhǔn)確。

        處理完成后,將獲取的金融文書(shū)中摘要與正文分開(kāi),添加標(biāo)簽,便于程序?qū)ξ臅?shū)的識(shí)別和理解。

        表1 對(duì)語(yǔ)料的處理

        [信息 處理 特殊字符 去除特殊字符 日期 替換為標(biāo)簽TAG_DATE 超鏈接URL 替換為標(biāo)簽TAG_URL 全角英文 替換為標(biāo)簽TAG_NAME_EN 數(shù)字 替換為標(biāo)簽TAG_NUMBER ]

        3.2 實(shí)驗(yàn)參數(shù)設(shè)置

        本實(shí)驗(yàn)選取的語(yǔ)料庫(kù)較大,計(jì)算較為復(fù)雜,為了確保模型相對(duì)快速地收斂,需要的設(shè)備資源要求較高,具體配置如表2所示。

        模型相關(guān)參數(shù)如表3所示。

        4 結(jié)果與分析

        本文選用了抽取式摘要和RNN模型兩種模型與本文模型進(jìn)行比較,具體實(shí)驗(yàn)結(jié)果比較如表4和表5所示。

        通過(guò)表4可知,生成式摘要的ROUGE值普遍高于抽取式摘要,這佐證了近年來(lái)的研究趨勢(shì),即趨于研究生成式摘要。通過(guò)對(duì)比RNN模型與本文模型的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),本文模型的ROUGE-2,3,4值均高出RNN模型6至8個(gè)百分點(diǎn),說(shuō)明本文句間的連貫性更好,可讀性較高,具有較好的可讀性。

        通過(guò)對(duì)比表5的摘要樣例,發(fā)現(xiàn)本文模型在概括全文內(nèi)容基礎(chǔ)上能學(xué)習(xí)、模擬人類(lèi)撰寫(xiě)摘要的方式,生成新詞匯對(duì)文書(shū)進(jìn)行歸納總結(jié),邏輯性更優(yōu)。

        盡管本文模型的ROUGE值普遍高于其他模型,然而ROUGE-1仍低于RNN模型,這說(shuō)明本文模型所能涵蓋的信息量仍然有限,如何完整地概括文書(shū)內(nèi)容仍需要進(jìn)一步深入探索。此外,本文的優(yōu)異效果與充足的訓(xùn)練樣本密不可分,樣本量越大,ROUGE值往往越高。倘若訓(xùn)練樣本數(shù)量有限,如何從中訓(xùn)練出完整流暢的摘要急需深入研究。

        5 結(jié)論

        本文構(gòu)建了一個(gè)基于多層LSTM的中文金融文書(shū)摘要自動(dòng)生成算法框架。其最終實(shí)驗(yàn)及評(píng)價(jià)結(jié)果顯示,本學(xué)習(xí)框架生成的摘要可讀性較高,未來(lái)可以通過(guò)與Textrank等一系列機(jī)器學(xué)習(xí)模型結(jié)合獲得更好的信息完整度,將神經(jīng)網(wǎng)絡(luò)模型應(yīng)用到處理金融類(lèi)多文檔多句子式的生成摘要中。

        參考文獻(xiàn):

        [1]陳曉萍.基于主題的短文本自動(dòng)摘要抽取研究與應(yīng)用[D].成都:電子科技大學(xué),2017.

        [2]李擎.基于語(yǔ)義詞向量的文本分類(lèi)多文檔自動(dòng)摘要[D].北京:北京郵電大學(xué),2018.

        [3]洪冬梅.基于LSTM的自動(dòng)文本摘要技術(shù)研究[D].廣州:華南理工大學(xué),2018.

        [4]郭洪杰.基于深度學(xué)習(xí)的生成式自動(dòng)摘要技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2018.

        [5]趙懷鵬.基于神經(jīng)網(wǎng)絡(luò)的抽取式摘要系統(tǒng)的研究與實(shí)現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2018.

        猜你喜歡
        注意力機(jī)制
        基于注意力機(jī)制的行人軌跡預(yù)測(cè)生成模型
        基于注意力機(jī)制和BGRU網(wǎng)絡(luò)的文本情感分析方法研究
        多特征融合的中文實(shí)體關(guān)系抽取研究
        基于序列到序列模型的文本到信息框生成的研究
        基于深度學(xué)習(xí)的手分割算法研究
        從餐館評(píng)論中提取方面術(shù)語(yǔ)
        面向短文本的網(wǎng)絡(luò)輿情話題
        基于自注意力與動(dòng)態(tài)路由的文本建模方法
        基于深度學(xué)習(xí)的問(wèn)題回答技術(shù)研究
        基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
        中文人妻熟妇乱又伦精品| 一区二区三区在线日本| 国产在线视频一区二区三| 国产精品久色婷婷不卡| 亚洲精品无码永久在线观看| 日本午夜精品理论片a级app发布 | 日产亚洲一区二区三区| 97影院在线午夜| 国产精品欧美成人片| 国产精品国产三级国a| 懂色av一区二区三区尤物| 一本色道久久综合无码人妻| 日韩成人无码一区二区三区| 大胸美女吃奶爽死视频| 国产av麻豆精品第一页| 亚洲国产精品美女久久| 欧美成人精品午夜免费影视| 97久久久久人妻精品专区| 黑人巨大亚洲一区二区久| 91九色极品探花内射| 亚洲国产av无码精品| 亚洲精品国偷拍自产在线麻豆| 国产爆乳无码一区二区在线 | 精品无码av一区二区三区| 99久久99久久精品国产片果冻| 亚洲Av无码专区尤物| 隔壁人妻欲求不满中文字幕| 精品天堂色吊丝一区二区| 韩日午夜在线资源一区二区| 最近高清中文在线字幕观看| 日韩最新av一区二区| 婷婷久久av综合一区二区三区| 国产精品国产三级国产专播| 国模少妇一区二区三区| 九月色婷婷免费| 精品人妻av一区二区三区四区| 久久无码字幕中文久久无码 | 男女激情视频网站免费在线| 深夜福利啪啪片| 免费人成无码大片在线观看 | 又白又嫩毛又多15p|