亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于序列到序列模型的句子級復述生成

        2018-09-05 10:19:04寧丹丹
        智能計算機與應用 2018年3期
        關(guān)鍵詞:語料譯文機制

        寧丹丹

        文章編號: 2095-2163(2018)03-0061-04中圖分類號: 文獻標志碼: A

        摘要: 關(guān)鍵詞: (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

        Abstract: Paraphrase is to change a sentence into another expression, meaning the same as before. Paraphrase is widely used in Natural Language Processing, for example, it is used in information retrieval, automatic abstracting, information extraction, sentence translation and so on. This paper focuses on the generation of sentence level paraphrase. In the research, first try the basic seq2seq model for sentence paraphrasing, then use bidirectional LSTM in encoder stage and join the attention mechanism, by comparing the generation results of sentences,demonstrate that the model with attention is better. In addition, further propose the copy mechanism and the coverage mechanism to improve the model. Among them, introduce the copy mechanism to solve special condition when names and places are present in original sentence. Under this condition, design to realize that the model can copy words without change. Experimental results show that the copy mechanism can improve the situation and generate better sentences. Finally, to address the common repetition problem of seq2seq, coverage mechanism is added on the basis of copy mechanism, which effectively improves this problem in sentences generation. And BLEU is used to evaluate the model results.

        Key words:

        作者簡介:

        通訊作者: 收稿日期: 引言

        復述(Paraphrase)是自然語言中普遍存在的一種現(xiàn)象,體現(xiàn)了自然語言的多樣性。隨著深度學習的發(fā)展以及自然語言處理各項技術(shù)的提高,對復述技術(shù)的需求也日趨強烈,因此,各大研究機構(gòu)及高校等對復述任務的研究也越來越關(guān)注。復述研究的對象主要是有關(guān)短語或者句子的同義現(xiàn)象?,F(xiàn)在已在信息檢索、自動問答、信息抽取、自動文摘和機器翻譯等方面應用廣泛。在復述的研究前期,研究主要利用句子中詞語之間的關(guān)系,句子的依存句法關(guān)系等進行復述生成,隨著深度學習的發(fā)展,很多研究機構(gòu)將深度學習技術(shù)應用到復述生成的任務中,并且具有顯著的效果。本文采用序列到序列模型的方法,對句子級復述進行生成,在基本seq2seq模型上嘗試3種改進方法,分別是雙向LSTM 注意力機制的改進方法、加入復制(copy)以及加入 (coverage)機制的方法。其中,復制機制主要解決句子中詞頻比較低的詞語的生成,例如在句子中會存在人名、地名等詞頻較低的詞,在復述過程中,目標設定在生成的句子將這些名稱進行復制,不進行改變,因此即有針對性地提出了復制機制。另外,seq2seq模型存在重復這一共性問題,本文采用覆蓋機制對這一現(xiàn)象進行改進。經(jīng)過如上3種改進方法,句子生成結(jié)果則獲得了明顯改進。

        1基于序列到序列的句子級復述生成模型

        在國內(nèi),句子級復述生成的研究也主要圍繞seq2seq模型進行改進。2016年,Gu等人\[1\]提出CopyNet方法,在Attention-based Encoder-Decoder模型的基礎上引入了一些改進,在decoder過程中,詞的概率由generate-mode和copy-mode共同決定,其中后者表示該詞來自原句。例如,在生成對話的過程中,就可以將人名這樣的特殊詞匯拷貝到回復句中。Cao等人\[2\]在句子級復述生成中借鑒CopyNet方法,提出了基于copy機制的復述生成模型,將該模型應用到文本簡化、摘要生成等任務上,取得了較好的結(jié)果。相比Gu等人提出的CopyNet模型,該模型的優(yōu)勢是簡單、易懂。國外研究人員在句子級復述任務上也開展了很多的研究工作,Prakash\[3\]等人在2016年提出了Stacked Residual LSTM networks用于復述生成問題上,通過利用基本seq2seq 的encoder-decoder模型,采用多層結(jié)構(gòu),在層與層之間加入殘差來改善多層網(wǎng)絡存在的梯度消失問題。Hasan\[4\]等人提出Neural Clinical Paraphrase Generation方法,用于臨床醫(yī)學術(shù)語等的復述問題上,目的是用通俗易懂的詞代替一些專業(yè)醫(yī)學術(shù)語,讓患者更加容易理解,并且采用attention-based Bi-direction RNN的端到端結(jié)構(gòu)進行復述生成,得到了較好的結(jié)果。另外,2017年,See\[5\]等人提出一種基于seq2seq模型的改進方法——Pointer-Generator Networks,并將其利用到文本摘要生成的任務當中,展現(xiàn)了較好的效果優(yōu)勢,其中seq2seq+Attention模型作為baseline,在此基礎上加入Pointer-Gen機制,即加入一個參數(shù),該參數(shù)決定當前詞進行生成還是進行復制,隨后在Pointer-Gen基礎上加入覆蓋機制,改善生成過程中出現(xiàn)的重復問題。

        在本文中,在研究嘗試了3種序列到序列模型的改進方法進行句子級復述生成,首先在基本seq2seq模型上加入注意力機制,在encoder階段采用雙向LSTM模型,用于提高seq2seq模型效果,模型結(jié)構(gòu)設計如圖1所示。

        上述模型也存在一定的問題,當原句長度較長時,生成句子結(jié)果也并未呈現(xiàn)良好實效,當原句中存在一些人名、地名等詞頻較低和不在詞表中存在的詞時,期望的結(jié)果是生成的句子中也存在這些詞,但是基本seq2seq模型和加入注意力機制的模型對這一問題沒有提供特別的處理,導致生成的句子中人名、地名的特殊詞語生成結(jié)果不好。所以,關(guān)于這一問題本文提出復制的思想,在注意力機制的模型上進行改進,一定程度上解決像人名、地名等OOV(out of vocabulary)的詞語的生成情況。另一方面,seq2seq模型和加入注意力機制的模型生成的句子存在重復的問題,這個問題是seq2seq模型的一個通病。生成的句子越長,重復問題越明顯,針對這一問題,本文提出覆蓋機制來對這一問題進行改善,模型結(jié)構(gòu)如圖2所示。

        2語料獲取及處理

        目前自然語言處理研究中,沒有大規(guī)模現(xiàn)成的復述語料資源,需要采取一定的方法獲取復述語料。例如英文詞語級復述資源用WordNet\[6\]、MindNet\[7\]等獲取,中文可以采用同義詞詞林、知網(wǎng)等。2001年,Barzilay\[8\]提出了一種基于外文翻譯獲取句子級復述語料庫的方法。Shinyama\[9\]等人提出了利用同一個新聞事件的不同描述來獲取復述語料,因而假定若2個句子中共同包含的命名實體超過一定的數(shù)量,那么這2個句子可以組成一個復述實例。

        本課題借鑒前人Barzilay\[8\]及哈爾濱工業(yè)大學李維剛\[10\]等人的方法,從單語平行語料庫中,也就是外文名著的不同譯本獲取復述實例。由于待處理的平行譯文文本大多數(shù)是從網(wǎng)絡上得到的 ,這些文本具有很多不規(guī)范的特征,例如這些文本一般是篇章對齊的,其中的段落沒有嚴格對齊,并且在翻譯時,為了保證翻譯后的語句通順,源語言的一句話可能被翻譯成多句話?;谝陨蠁栴},首先需要將文本整合為一篇文章消除段落界限,利用二分圖最優(yōu)匹配的過程,對句子進行對齊,獲取復述實例。

        本文研究利用《百年孤獨》和《呼嘯山莊》兩部外文名著的不同翻譯版本獲取復述語料,語料規(guī)模為:10 159句對。對抽取出的復述句對再次進行過濾處理,過濾規(guī)則是相對應的2句長度差超過一定的值則將該句對進行過濾,過濾處理后的語料規(guī)模為8 022句。

        3評價指標與實驗結(jié)果

        3.1評價指標

        本文采用機器翻譯的一種評價方式——BLEU值對句子級復述生成的結(jié)果進行評價。該評價方式最先由IBM\[11\]在2002年提出,在機器翻譯任務中,該評價方式的主要思想是若由模型翻譯得到的句子越接近人工翻譯的結(jié)果,則證明該模型效果越好,那么定義模型翻譯得到的句子與人工翻譯得到句子之間的相似度成為BLEU評價的核心內(nèi)容。

        首先,BLEU評價需要參考譯文,對于本文句子級復述生成任務,這里的“參考譯文”為復述后的句子。BLEU值通過比較并統(tǒng)計模型生成句子和復述句中共現(xiàn)的n-gram個數(shù),最后把匹配到的n-gram的數(shù)目除以模型生成句子中詞語的數(shù)目,得到評測結(jié)果。之后BLEU做了修正,首先計算出n-gram在一個句子中最大可能出現(xiàn)的次數(shù),然后跟“參考譯文”中n-gram出現(xiàn)的次數(shù)作比較,取兩者之間最小值作為n-gram的最終匹配個數(shù)。首先,研究定義模型生成的句子為ci,“參考譯文”即復述句表示為Si={si1, si2, …, sim}∈S,計算過程如下。

        首先,計算句對中語料庫層面上的重合精度CPnC,S:

        CPnC,S=∑i∑kmin (hkci, maxj∈mhk(sij))∑i∑khk(ci) (1)

        其中,wk表示第k組可能的n-grams,式(1)中hkci表示wk在模型生成句ci中出現(xiàn)的次數(shù),hk(sij)表示wk在“參考譯文”sij中出現(xiàn)的次數(shù)。

        可以看出CPnC,S是個精確度度量,在語句較短時表現(xiàn)更好,所以BLEU加入懲罰因子BP。這里給出數(shù)學公式如下:bC,S=1 iflc>ls

        e1-lslciflc

        4結(jié)束語

        本文主要提出了3種基于序列到序列模型的改進方法應用到句子級復述生成任務中,首先研究嘗試了基本seq2seq模型用于句子復述,并嘗試在encoder階段采用雙向LSTM,而后在雙向LSTM基礎上加入注意力機制,比較句子生成結(jié)果,可以得出加入注意力機制的模型生成結(jié)果效果要好。接著本課題提出復制機制和覆蓋機制對模型進行改進,其中復制機制旨在解決原句中出現(xiàn)人名、地名等特殊詞匯的情況,這樣情況下將致力于模型可以對詞進行復制,不進行改變,實驗結(jié)果證明,復制機制對這一情況有所改善,句子生成效果較好,此外,針對seq2seq普遍存在的重復問題,研究還在復制機制的基礎上加入覆蓋機制,有效改善了生成句子的重復問題。

        參考文獻

        [1] GU Jiatao, LU Zhengdong, LI Hang, et al. Incorporating copying mechanism in sequencetosequence learning[J]. arXiv preprint arXiv:1603.06393, 2016.

        [2] CAO Ziqiang, LUO Chuwei, LI Wenjie, et al. Joint copying and restricted generation for paraphrase[J]. arXiv preprint arXiv:1611.09235, 2016.

        [3] PRAKASH A, HASAN S A, LEE K, et al. Neural paraphrase generation with stacked residual LSTM networks[J]. arXiv preprint arXiv:1610.03098,2016.

        [4] HASAN S A, LIU B, LIU J, et al. Neural clinical paraphrase generation with attention[C]//Proceedings of the Clinical Natural Language Processing Workshop. Osaka, Japan:[s.n.], 2016: 42-53.

        [5] SEE A, LIU P J, MANNING C D. Get to the point: Summarization with pointergenerator networks[J]. arXiv preprint arXiv:1704.04368, 2017.

        [6] MILLER G A, BECKWITH R, FELLBAUM C, et al. Introduction to wordnet: An online lexical database[J]. International Journal of Lexicography, 1990,3(4): 235-244.

        [7] RICHARDSON S D, DOLAN W B, WANDERWENDE L. Mindnet: Acquiring and structuring semantic information from text[C]//COLING '98 Proceedings of the 17th international conference on Computational linguistics.Montreal, Quebec, Canada:ACM, 1998:1098-1102 .

        [8] BARZILAY R, MCKEOWN K R. Extracting paraphrases from a parallel corpus[C]//ACL '01 Proceedings of the 39th Annual Meeting on Association for Computational Linguistics. Toulouse, France:ACM, 2001:50-57.

        [9] SHINYAMA Y, SEKINE S, SUDO K. Automatic paraphrase acquisition from news articles[C]//HLT '02 Proceedings of the second international conference on Human Language Technology Research. San Diego, California:ACM, 2002:313-318 .

        [10]李維剛. 中文復述實例與復述模板抽取技術(shù)研究[D]. 哈爾濱: 哈爾濱工業(yè)大學, 2008.

        [11]PAPINENI K, ROUKOS S, WARD T, et al. BLEU: A method for automatic evaluation of machine translation[C]// ACL '02 Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Philadelphia, Pennsylvania: ACM,2002:311-318.

        猜你喜歡
        語料譯文機制
        Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
        譯文摘要
        自制力是一種很好的篩選機制
        文苑(2018年21期)2018-11-09 01:23:06
        I Like Thinking
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        華語電影作為真實語料在翻譯教學中的應用
        破除舊機制要分步推進
        注重機制的相互配合
        《苗防備覽》中的湘西語料
        打基礎 抓機制 顯成效
        中國火炬(2014年4期)2014-07-24 14:22:19
        永久免费人禽av在线观看| 亚洲区一区二区三区四| 99青青草视频在线观看| 国产成人精品亚洲日本在线观看| 色狠狠av老熟女| 亚洲—本道中文字幕久久66| 国产精品高清一区二区三区人妖| av高清在线不卡直播| 亚洲爆乳精品无码一区二区| 亚洲国产欧美日韩一区二区| 亚洲国产成人av第一二三区| 国产在线观看91一区二区三区| 欧洲熟妇色xxxx欧美老妇多毛| 国产精品理人伦国色天香一区二区| 成年人男女啪啪网站视频| 亚洲av免费不卡在线观看| 大又大粗又爽又黄少妇毛片| 特黄aa级毛片免费视频播放| 亚洲视频在线中文字幕乱码| 熟女人妻中文字幕av| 国产精品无码av天天爽| 亚洲另类激情综合偷自拍图| 中文字幕精品久久一区二区三区| 亚洲一区二区三区小说| 亚洲综合精品成人| 久久亚洲aⅴ精品网站婷婷| 日本加勒比精品一区二区视频| 中文字幕人妻第一区| 国产精品一区二区在线观看99| 麻美由真中文字幕人妻| 人妻免费一区二区三区免费| v一区无码内射国产| 国产精品国产三级国产专播 | 国产精品一区二区三区成人| 色噜噜亚洲男人的天堂| 欧美疯狂性xxxxxbbbbb| 杨幂Av一区二区三区| 美女扒开腿露内裤免费看| 免费观看的av毛片的网站| 中文字幕巨乱亚洲| 少妇人妻无一区二区三区 |