亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)構(gòu)化數(shù)據(jù)到數(shù)值型分析文本生成模型①

        2022-06-27 03:54:54楊子聰焦文彬劉曉東
        關(guān)鍵詞:機(jī)制文本內(nèi)容

        楊子聰, 焦文彬, 劉曉東, 汪 洋

        1(中國(guó)科學(xué)院 計(jì)算機(jī)網(wǎng)絡(luò)信息中心, 北京 100190)

        2(中國(guó)科學(xué)院大學(xué), 北京 100049)

        隨著自然語(yǔ)言處理技術(shù)的快速發(fā)展, 越來(lái)越多報(bào)告的生成實(shí)現(xiàn)了自動(dòng)化, 例如財(cái)報(bào)的自動(dòng)生成、體育賽事報(bào)道的自動(dòng)生成和醫(yī)學(xué)報(bào)告的自動(dòng)生成等. 由于報(bào)告具有描述總結(jié)數(shù)據(jù)的天然特征, 基于結(jié)構(gòu)化數(shù)據(jù)的文本生成便成為實(shí)現(xiàn)報(bào)告自動(dòng)生成的核心內(nèi)容, 報(bào)告自動(dòng)生成系統(tǒng)只有擁有了高性能的結(jié)構(gòu)化數(shù)據(jù)到文本生成模型, 才能產(chǎn)出高質(zhì)量的分析報(bào)告. 而報(bào)告多以數(shù)值型數(shù)據(jù)和對(duì)應(yīng)的描述分析性文本組成, 因此研究基于數(shù)值型結(jié)構(gòu)化數(shù)據(jù)的文本生成模型具有重要意義.

        基于結(jié)構(gòu)化數(shù)據(jù)的文本生成的主要技術(shù)框架有兩種: 基于規(guī)則和模板化的傳統(tǒng)方法, 和數(shù)據(jù)驅(qū)動(dòng)的端到端的深度學(xué)習(xí)方法[1]. 傳統(tǒng)方法雖易于控制和改進(jìn), 但費(fèi)時(shí)費(fèi)力且無(wú)法遷移[2]. 而基于深度學(xué)習(xí)的方法可控性雖表現(xiàn)還不如人意, 但可通過(guò)不斷的訓(xùn)練和優(yōu)化模型來(lái)逐步提升, 且遷移性強(qiáng). 基于深度學(xué)習(xí)的方法主要使用Encoder-Decoder 訓(xùn)練框架, 該框架為2014 年Cho等人在Seq2Seq 循環(huán)神經(jīng)網(wǎng)絡(luò)中首次提出, 最早被用來(lái)進(jìn)行機(jī)器翻譯模型的訓(xùn)練, 后廣泛用于文本生成領(lǐng)域內(nèi)的各項(xiàng)任務(wù)[3]. 在結(jié)構(gòu)化數(shù)據(jù)到文本生成的任務(wù)中, Encoder 和Decoder 部分使用的深度學(xué)習(xí)網(wǎng)絡(luò)主要分為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其變種長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)和Transformer 網(wǎng)絡(luò)兩大類[4], 從指標(biāo)和效果上看, 仍舊是前者具有更好的表現(xiàn), 且該類神經(jīng)網(wǎng)絡(luò)適合處理序列化的數(shù)據(jù), 另外其在可控性上也有更多優(yōu)化空間. 在使用RNN 和LSTM 實(shí)現(xiàn)Encoder-Decoder 訓(xùn)練框架的基礎(chǔ)上, 大多數(shù)模型往往會(huì)在Encoder 部分使用attention 機(jī)制[5], 通過(guò)計(jì)算隱含層狀態(tài)和更新后的解碼器狀態(tài)的相似度, 獲得每個(gè)隱含層在匯總成中間語(yǔ)義向量時(shí)的權(quán)重, 使得模型能夠有重點(diǎn)地關(guān)注輸入.另外考慮到輸入的結(jié)構(gòu)化數(shù)據(jù)中出現(xiàn)的詞語(yǔ)通常可用來(lái)生成句子, 但由于頻率太低經(jīng)常被忽略的問(wèn)題, 因此在Decoder 部分常常使用copy 機(jī)制[6].

        考慮到目前的結(jié)構(gòu)化數(shù)據(jù)到文本生成技術(shù)主要應(yīng)用于人物生平介紹、餐館信息描述和商品介紹的生成,而本文處理的結(jié)構(gòu)化數(shù)據(jù)相較于以上應(yīng)用場(chǎng)景中處理的結(jié)構(gòu)化數(shù)據(jù)的一大特點(diǎn)是數(shù)值型數(shù)據(jù)較多, 甚至全部是數(shù)值型數(shù)據(jù), 這樣的情況常常導(dǎo)致生成的文本無(wú)法捕捉重點(diǎn)信息, 訓(xùn)練上出現(xiàn)困難. 基于此, 本文提出的模型融合了coarse-to-fine aligner 選擇機(jī)制[7], 在使用傳統(tǒng)的基于內(nèi)容的注意力機(jī)制計(jì)算隱含層權(quán)重的基礎(chǔ)上, 另外賦予隱含層一個(gè)被選擇的概率, 通過(guò)計(jì)算各個(gè)隱含層被選擇的概率和當(dāng)前時(shí)刻獲得的注意力權(quán)重兩者的乘積確定最終的注意力權(quán)重, 從而達(dá)到對(duì)結(jié)構(gòu)化數(shù)據(jù)[field, content]中的content 進(jìn)行選擇性描述的目的. 另外由于報(bào)告中對(duì)數(shù)據(jù)的分析性文本常常要求邏輯明確、語(yǔ)序正確, 因此本文的模型也融合了linkedbased attention 注意力機(jī)制, 通過(guò)對(duì)結(jié)構(gòu)化數(shù)據(jù)[field,content]中的field 進(jìn)行關(guān)系建模, 模擬不同的Field 之間在文本中出現(xiàn)的先后關(guān)系[8]. 最終本文的模型采用LSTM 實(shí)現(xiàn)了Encoder-Decoder 框架, 在Encoder 部分使用基于內(nèi)容的注意力機(jī)制, 在Decoder 部分使用copy機(jī)制, 并在此基礎(chǔ)上根據(jù)數(shù)值型數(shù)據(jù)的特點(diǎn)和報(bào)告中分析性文本的應(yīng)用要求融合了coarse-to-fine aligner選擇機(jī)制和linked-based attention 注意力機(jī)制. 通過(guò)使用A 股的市場(chǎng)數(shù)據(jù)和對(duì)A 股的每日播報(bào)資訊作為模型訓(xùn)練和測(cè)試的數(shù)據(jù)集, 并與僅使用基于內(nèi)容的注意力機(jī)制的模型和在前者基礎(chǔ)上增加使用linked-based attention 注意力機(jī)制的模型進(jìn)行對(duì)比, 顯示了本文提出的模型具有較好的效果.

        1 基本訓(xùn)練框架和機(jī)制研究

        本節(jié)簡(jiǎn)要介紹下基于結(jié)構(gòu)化數(shù)據(jù)的文本生成所使用的基本訓(xùn)練框架, 以及解決該類任務(wù)時(shí)在該框架中常使用的兩種機(jī)制.

        1.1 Encoder-Decoder 框架

        Encoder-Decoder 是一種訓(xùn)練框架, 分為編碼器和解碼器. 編碼器的功能是將現(xiàn)實(shí)問(wèn)題轉(zhuǎn)化為數(shù)學(xué)問(wèn)題,例如將輸入的文本、圖片或音頻表征成向量. 解碼器的功能是基于編碼器的結(jié)果求解數(shù)學(xué)問(wèn)題, 并轉(zhuǎn)化為現(xiàn)實(shí)世界的解決方案.

        而編碼器和解碼器功能的實(shí)現(xiàn)均需要依靠深度學(xué)習(xí)網(wǎng)絡(luò), 具體選擇則根據(jù)應(yīng)用場(chǎng)景需要而定. 由于LSTM具有處理序列數(shù)據(jù)的優(yōu)勢(shì), 且解決了RNN 在面臨長(zhǎng)序列時(shí)產(chǎn)生的梯度消失和梯度爆炸的問(wèn)題, 本文選擇LSTM

        圖1 Encoder-Decoder 框架圖

        1.2 基于內(nèi)容的注意力機(jī)制

        在使用Encoder-Decoder 框架時(shí), 常常會(huì)在匯總隱含層形成中間語(yǔ)義向量時(shí)使用注意力機(jī)制, 這樣的做法解決了Encoder 部分必須將整個(gè)輸入序列的信息都?jí)喝氲揭粋€(gè)固定長(zhǎng)度的context 中, 從而也解決了輸入序列過(guò)長(zhǎng)可能的信息缺失和輸入序列過(guò)短可能的信息冗余問(wèn)題, 同時(shí)還可以對(duì)輸入的內(nèi)容分配不同的關(guān)注度, 最終充分利用信息.

        1.3 Copy 機(jī)制

        在使用Encoder-Decoder 框架時(shí), 還存在另一個(gè)問(wèn)題,即無(wú)法充分利用結(jié)構(gòu)化數(shù)據(jù)中的詞語(yǔ). 具體來(lái)說(shuō), 結(jié)構(gòu)化數(shù)據(jù)中的很多詞匯十分適合用于最后生成的文本當(dāng)中, 但由于其出現(xiàn)頻率較低, 常常被忽略. 因此編解碼器模型中常常使用copy 機(jī)制解決這一問(wèn)題, 它使得模型結(jié)合generate 和copy 兩種方式, 模型在解碼階段會(huì)選擇是從詞匯表中按照概率選擇要生成的詞還是直接從輸入的數(shù)據(jù)中復(fù)制[11]. 其中復(fù)制的概率計(jì)算方法如下:

        2 結(jié)構(gòu)化數(shù)據(jù)到文本生成模型研究

        為了更針對(duì)性地解決生成數(shù)值型數(shù)據(jù)的分析性文本這一任務(wù), 本文提出的模型融合了coarse-to-fine aligner選擇機(jī)制和linked-based attention 注意力機(jī)制. 這兩種機(jī)制均作用于生成中間語(yǔ)義向量的過(guò)程中, 其中, coarseto-fine aligner 選擇機(jī)制在模型使用基于內(nèi)容的注意力機(jī)制基礎(chǔ)上, 增加了對(duì)結(jié)構(gòu)化數(shù)據(jù)[field, content]中content 部分的預(yù)選功能, 優(yōu)化了生成的文本中對(duì)描述內(nèi)容的選擇. 而linked-based attention 注意力機(jī)制則是對(duì)結(jié)構(gòu)化數(shù)據(jù)[field, content]中field 部分進(jìn)行關(guān)系建模, 使得模型可以在生成文本時(shí)保持一個(gè)合理的描述順序.

        2.1 融合coarse-to-fine aligner 選擇機(jī)制

        在基于結(jié)構(gòu)化數(shù)據(jù)生成文本時(shí), 無(wú)論是使用傳統(tǒng)的基于規(guī)則的模板方法還是數(shù)據(jù)驅(qū)動(dòng)的端到端的深度學(xué)習(xí)方法, 優(yōu)化之處均是相同的3 部分: ① 內(nèi)容規(guī)劃,即選擇結(jié)構(gòu)化數(shù)據(jù)中需要描述的field 和content; ②句子規(guī)劃, 即確定選擇的描述內(nèi)容在生成的文本中的描述順序; ③ 句子實(shí)現(xiàn), 即基于前兩步的規(guī)劃生成對(duì)應(yīng)的文本. 在內(nèi)容規(guī)劃部分, 基于結(jié)構(gòu)化數(shù)據(jù)到文本生成的模型往往僅使用基于內(nèi)容的注意力機(jī)制, Mei 等提出了一種coarse-to-fine 的選擇機(jī)制[7], 在計(jì)算每部分隱含層注意力權(quán)重的基礎(chǔ)上賦予一項(xiàng)選擇該部分的概率,從而實(shí)現(xiàn)了對(duì)內(nèi)容選擇的優(yōu)化.

        在處理數(shù)值型結(jié)構(gòu)化數(shù)據(jù)時(shí), 數(shù)據(jù)中的field 部分和其他類型數(shù)據(jù)的處理方式?jīng)]有不同, 而content 部分大多是數(shù)值型的數(shù)據(jù), 甚至全部是數(shù)值型數(shù)據(jù), 在訓(xùn)練過(guò)程中無(wú)法使得模型對(duì)某幾項(xiàng)數(shù)據(jù)進(jìn)行重點(diǎn)關(guān)注和描述,僅使用基于內(nèi)容的注意力機(jī)制已經(jīng)無(wú)法滿足此類場(chǎng)景下的應(yīng)用需要. 因此, 本文提出的模型融合了coarseto-fine 選擇機(jī)制(見(jiàn)圖2), 在基于內(nèi)容的coarse 程度的注意力機(jī)制基礎(chǔ)上, 賦予每個(gè)隱含層被選擇的概率, 并通過(guò)計(jì)算選擇每部分的概率和每部分基于內(nèi)容的注意力機(jī)制下的權(quán)重的乘積, 最終獲得fine 程度的注意力權(quán)重. 基于數(shù)值型數(shù)據(jù)的content 部分的特點(diǎn), 本文在實(shí)現(xiàn)這種機(jī)制的過(guò)程中做了適應(yīng)性的改動(dòng), 首先將field 和content 兩部分的Embedding也即fi和ci進(jìn)行concatenation, 得到ri:[fi;ci], 在ri經(jīng)過(guò)Encoder 得到隱含層狀態(tài)后, 隱含層將會(huì)進(jìn)入pre-selec. 預(yù)選模塊獲得一項(xiàng)被選擇的概率.

        圖2 Coarse-to-fine aligner 選擇機(jī)制

        2.2 融合linked-based attention 注意力機(jī)制

        在第2.1 節(jié)中介紹了基于結(jié)構(gòu)化數(shù)據(jù)到文本生成任務(wù)的3 個(gè)優(yōu)化點(diǎn), linked-based attention 注意力機(jī)制即是針對(duì)句子層面的規(guī)劃提出的注意力機(jī)制. Sha 等基于LSTM 實(shí)現(xiàn)Encoder-Decoder 框架, 并根據(jù)句子規(guī)劃的思路, 提出了一種基于鏈接的混合注意力機(jī)制, 將其應(yīng)用在Encoder 部分, 模擬不同領(lǐng)域之間的關(guān)系, 明確地對(duì)這類信息進(jìn)行建模[8]. 由于針對(duì)數(shù)值型數(shù)據(jù)生成的分析性文本對(duì)語(yǔ)序及內(nèi)容的描述順序有較高的要求,因此本文提出的模型也將這種機(jī)制設(shè)計(jì)進(jìn)入了模型當(dāng)中.

        2.3 訓(xùn)練函數(shù)

        刻概率最大的單詞, 并且當(dāng)生成詞為特殊符號(hào)<EOS>時(shí), 表示解碼結(jié)束, 文本生成完畢.

        3 實(shí)驗(yàn)分析

        3.1 數(shù)據(jù)集的構(gòu)建

        從尋找數(shù)值型結(jié)構(gòu)化數(shù)據(jù)以及數(shù)據(jù)獲取的便捷性出發(fā), 我們通過(guò)財(cái)經(jīng)金融網(wǎng)站提供的數(shù)據(jù)下載接口獲取了2020 年1 月14 日至2021 年5 月26 日的A 股市場(chǎng)數(shù)據(jù), 并將其整理成模型訓(xùn)練所需的標(biāo)準(zhǔn)格式[field:content]作為最終的數(shù)值型結(jié)構(gòu)化數(shù)據(jù), 并且聯(lián)合每日股市點(diǎn)評(píng)的摘要及A 股每日播報(bào)的資訊作為已有結(jié)構(gòu)化數(shù)據(jù)對(duì)應(yīng)的分析性文本, 同時(shí)使用了中文分詞工具jieba 對(duì)獲取的文本進(jìn)行了分詞處理[12].

        3.2 評(píng)價(jià)方法

        我們選擇了BLEU和ROUGE-L作為評(píng)估本文提出的生成數(shù)值型數(shù)據(jù)分析性文本模型的評(píng)價(jià)指標(biāo)[13,14].其中BLEU是文本生成任務(wù)中通用的評(píng)價(jià)方式, 其基本思路是比較機(jī)器生成的文本和參考文本中n-gram的重合度, 且其是一種基于準(zhǔn)確率的評(píng)價(jià)指標(biāo), 計(jì)算方法如式(21)[15]:

        圖3 混合注意力機(jī)制示意圖

        其中,LCS(C,S)表示機(jī)器生成的文本與參考文本的最長(zhǎng)公共子序列的長(zhǎng)度,len(S)和len(C)分別表示參考文本和機(jī)器生成文本的長(zhǎng)度.

        3.3 實(shí)驗(yàn)結(jié)果與分析

        表1 為實(shí)驗(yàn)使用的結(jié)構(gòu)化數(shù)據(jù)和本文模型生成的描述性文本示例. 我們?cè)谧孕袠?gòu)建的數(shù)據(jù)集上進(jìn)行了模型效果的對(duì)比分析, 通過(guò)把模型生成的文本與測(cè)試集中的參考文本進(jìn)行對(duì)比, 得到了在BLEU和ROUGE-L評(píng)價(jià)方法下的評(píng)價(jià)結(jié)果, 見(jiàn)表2.

        表1 結(jié)構(gòu)化數(shù)據(jù)和本文模型生成的對(duì)應(yīng)描述性文本

        表2 本文模型和其他模型的結(jié)果對(duì)比

        其中參與對(duì)比的第1 個(gè)模型為baseline, 此模型為本文在基本訓(xùn)練框架和機(jī)制研究中介紹的基礎(chǔ)模型,即通過(guò)LSTM 實(shí)現(xiàn)Encoder-Decoder 框架, 并且使用了基于內(nèi)容的注意力機(jī)制和copy 機(jī)制的結(jié)構(gòu)化數(shù)據(jù)到文本生成模型, 第2 個(gè)模型為在baseline 基礎(chǔ)上使用了linked-based attention 注意力機(jī)制的模型, 第3 個(gè)模型為基于OpenAI 開(kāi)發(fā)的GPT2 預(yù)訓(xùn)練模型的multiconditioned Transformer[17], 第4 個(gè)模型即為本文提出的融合了coarse-to-fine aligner 選擇機(jī)制和linkedbased attention 注意力機(jī)制的模型.

        從表2 中的結(jié)果看, 相較于僅僅使用基于內(nèi)容的注意力機(jī)制的模型, 增加使用linked-based attention 注意力機(jī)制的模型在ROUGE-L指標(biāo)上有較大的提升, 說(shuō)明生成的文本在語(yǔ)義和內(nèi)容上有很大的改進(jìn), 同時(shí)其在BLEU指標(biāo)上也有一定提升. 而本文提出的模型在使用linked-based attention 注意力機(jī)制的基礎(chǔ)上, 還融合了coarse-to-fine 選擇機(jī)制, 該模型在BLEU和ROUGE-L指標(biāo)上均進(jìn)一步獲得了提升. 而基于GPT2 預(yù)訓(xùn)練模型的multi-conditioned Transformer 在兩個(gè)指標(biāo)上均未得分, 可以見(jiàn)得生成數(shù)值型數(shù)據(jù)的描述性文本時(shí)基于Transformer 的GPT2 等預(yù)訓(xùn)練模型直接根據(jù)語(yǔ)義信息生成文本的方法無(wú)法生成有效的文本, 說(shuō)明解決此類任務(wù)按照內(nèi)容規(guī)劃和句子實(shí)現(xiàn)的思路進(jìn)行仍是最穩(wěn)妥有效的方案. 最終, 通過(guò)與不同類型模型(如基于GPT2)的橫向比較和與同類型模型的縱向比較, 說(shuō)明本文提出的模型在解決針對(duì)數(shù)值型結(jié)構(gòu)化數(shù)據(jù)生成分析性文本這一特定領(lǐng)域的結(jié)構(gòu)化數(shù)據(jù)到文本生成任務(wù)時(shí)具有很好的適配性, 能夠比已有的模型更好地解決這類問(wèn)題.

        4 總結(jié)與展望

        基于結(jié)構(gòu)化數(shù)據(jù)的文本生成是自然語(yǔ)言生成領(lǐng)域重要的研究方向, 其是新聞自動(dòng)報(bào)道和報(bào)告自動(dòng)生成等領(lǐng)域的關(guān)鍵技術(shù). 從為報(bào)告中的數(shù)值型數(shù)據(jù)自動(dòng)生成分析性文本出發(fā), 本文提出了一種融合coarse-to-fine aligner 選擇機(jī)制和linked-based attention 注意力機(jī)制的編碼器-解碼器文本生成模型, 通過(guò)在自行構(gòu)建的數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試, 并通過(guò)和已有的模型進(jìn)行性能對(duì)比, 說(shuō)明了該模型在生成數(shù)值型數(shù)據(jù)的分析性文本這一特定領(lǐng)域的結(jié)構(gòu)化數(shù)據(jù)到文本生成任務(wù)上具有更好的表現(xiàn).

        生成數(shù)值型數(shù)據(jù)的分析性文本是實(shí)現(xiàn)報(bào)告自動(dòng)生成的核心內(nèi)容, 但目前解決該類任務(wù)的文本生成技術(shù)仍有較大提升和改進(jìn)的空間, 包括生成的文本的長(zhǎng)度、內(nèi)容合理性、數(shù)據(jù)的正確性及對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析水平. 后續(xù)的工作將會(huì)重點(diǎn)加強(qiáng)文本生成的可控性, 提高生成文本的邏輯性及對(duì)各類數(shù)據(jù)描述的嚴(yán)謹(jǐn)性, 使得模型在實(shí)際應(yīng)用中具有更好的魯棒性[18]. 而隨著人工智能的不斷發(fā)展, 深度學(xué)習(xí)網(wǎng)絡(luò)也將逐漸增加更多的邏輯推理能力, 基于結(jié)構(gòu)化數(shù)據(jù)的文本生成技術(shù)也將逐漸具有更多的統(tǒng)計(jì)和推理能力, 并生成更智能的分析性文本[19-21].

        猜你喜歡
        機(jī)制文本內(nèi)容
        內(nèi)容回顧溫故知新
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        自制力是一種很好的篩選機(jī)制
        文苑(2018年21期)2018-11-09 01:23:06
        主要內(nèi)容
        臺(tái)聲(2016年2期)2016-09-16 01:06:53
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        破除舊機(jī)制要分步推進(jìn)
        注重機(jī)制的相互配合
        打基礎(chǔ) 抓機(jī)制 顯成效
        如何快速走進(jìn)文本
        最好看2019高清中文字幕视频| 国产成人精品自拍在线观看| 五月综合丁香婷婷久久| 精品国产精品久久一区免费式| 日本a一区二区三区在线| 亚洲视频专区一区二区三区| 特级做a爰片毛片免费看| 欧美第一黄网免费网站| 妞干网中文字幕| 午夜视频在线观看日本| 国产精品高清网站| 日本丰满熟妇hd| 亚洲AV肉丝网站一区二区无码| 国产精品区二区东京在线| 色欲一区二区三区精品a片| 亚洲av无码潮喷在线观看| 久久亚洲AV成人一二三区| 亚洲中文字幕国产剧情| 亚洲一区精品无码| 中文字幕有码无码av| 国产在线h视频| 亚洲一区二区三区重口另类| 久久综合亚洲色一区二区三区 | 国产自拍av在线观看视频| 久久久无码人妻精品一区| 国产成+人+综合+亚洲专| 国产精品久久国产精麻豆| 欧美男生射精高潮视频网站| 无码国产一区二区三区四区| 99热这里只有精品久久6| 男女激情视频网站在线| 久久久亚洲精品无码| 99热成人精品免费久久| 最新国产成人在线网站| 一本色道加勒比精品一区二区 | 国产在线第一区二区三区| 国产zzjjzzjj视频全免费| 国产极品喷水视频| 亚洲乱码中文字幕视频| 中国丰满熟妇xxxx性| 午夜短无码|