亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進的深度學習古詩自動生成系統(tǒng)研究

        2021-04-03 06:12:53呂敬褚麗莉龔瑞雪
        現(xiàn)代信息科技 2021年19期
        關鍵詞:深度學習

        呂敬 褚麗莉 龔瑞雪

        摘? 要:近年來,利用深度學習技術實現(xiàn)古詩自動生成逐漸火熱。研究者多采用基于語句或基于圖片作為古詩自動生成系統(tǒng)的輸入,完成古詩的自動生成。研究發(fā)現(xiàn),目前基于語句作為輸入時多受限于輸入字數(shù)的限制,導致無法滿足想要進行自由創(chuàng)作的需要。為此,文章基于深度學習利用LSTM神經(jīng)網(wǎng)絡實現(xiàn)了一種古詩自動生成系統(tǒng),該系統(tǒng)可基于任意長度語句作為輸入實現(xiàn)古詩自動生成;為了方便操作和查看,利用Tkinter實現(xiàn)了系統(tǒng)功能的可視化;最后通過人工評估方法論證了系統(tǒng)的可行性。

        關鍵詞:深度學習;古詩自動生成;LSTM;任意長度

        中圖分類號:TP18? ? ?文獻標識碼:A文章編號:2096-4706(2021)19-0097-04

        Research on Automatic Generation System of Ancient Poetry Based on

        Improved Deep Learning

        LYU Jing, CHU Lili, GONG Ruixue

        (Liaoning University of Technology, Jinzhou? 121001, China)

        Abstract: In recent years, the use of deep learning technology to realize the automatic generation of ancient poetry is becoming more and more popular. Researchers often use sentences or pictures as the input of the automatic generation system of ancient poetry to complete the automatic generation of ancient poetry. It is found that the current sentence based input is limited by the number of words, which can not meet the needs of free creation. Therefore, based on deep learning, this paper realizes an automatic generation system of ancient poetry by using LSTM neural network. The system can realize the automatic generation of ancient poetry based on arbitrary length sentences input; in order to facilitate operation and viewing, Tkinter is used to realize the visualization of system functions; finally, the feasibility of the system is demonstrated by manual evaluation method.

        Keywords: deep learning; automatic generation of ancient poetry; LSTM; arbitrary length

        0? 引? 言

        古詩在中國傳統(tǒng)文化中占據(jù)舉足輕重的地位。在中華文明上下五千年中,文人墨客將古詩作為記錄生活、寄托情感、反映應生活狀態(tài)的重要載體,那些傳世著作更是對人們產(chǎn)生了深遠的影響。

        古詩創(chuàng)作講究平仄押韻、格律對稱,同時要求詩句連貫、主題一致,要通過簡短凝練的文字表達出一定的意境,具有語言優(yōu)美、概括性強且發(fā)人深省、回味悠長等特點[1]。這給普通人進行古詩創(chuàng)作帶來了難度,而如何利用現(xiàn)代技術進行詩歌創(chuàng)作也成為一個富有挑戰(zhàn)的課題。

        深度學習(Deep Learning, DL)由機器學習發(fā)展而來,是近年來備受關注的領域。經(jīng)過不斷地迭代更新,深度學習已成為人工智能領域的重要分支,是人工智能的“新寵兒”[2]。深度學習其內(nèi)部含有多個隱藏層的多層感知器,旨在利用神經(jīng)網(wǎng)絡模型模擬出人類大腦的學習過程,從而對海量數(shù)據(jù)樣本進行規(guī)律提取、特征分析從而具有人類大腦的判斷思考能力。目前,典型的深度學習模型有RNN、DBN、LSTM、BERT等,其相應的應用和人類生活息息相關,特別是在人機互答、人臉識別等語音和圖像處理方面,深度學習更是發(fā)揮至關重要的作用。而利用深度學習實現(xiàn)古詩等文本生成也是研究者青睞的研究方向[3]。

        1? 研究現(xiàn)狀

        機器寫詩的歷史可追溯到20世紀60年代,但受限于當時的科技水平,研究者只能利用簡單的程序?qū)卧~進行隨機拼接形成一首完整的“詩歌”,導致生成的詩歌不具有實際的意義,甚至無法朗讀。因而將這一時期的詩歌形象地稱為詞語沙拉(Word Salad)。如1962年《Time》發(fā)表的文章:“The Pocketa, Pocketa School”[4]。

        2015年,Zhang等人[5]首次將循環(huán)神經(jīng)網(wǎng)絡(RNN)應用在古詩自動生成上,并取得了巨大進步。Zhang等人提出的RNNPG模型為研究者提供了古詩自動生成的研究方向,隨后出現(xiàn)了眾多古詩自動生成的模型和生成方式。如黃文明等人[6]利用神經(jīng)網(wǎng)絡模型模擬古代詩人寫詩過程,并提出了基于序列到序列神經(jīng)網(wǎng)絡模型的古詩自動生成方法;梁健楠等人[7]根據(jù)中國古代集句詩歌體制提出了集句詩自動生成模型。也有研究者嘗試將古詩自動生成和其他藝術形式相結(jié)合,不斷豐富古詩自動生成的內(nèi)涵。如陳佳舟等人[8]認為詩畫應該混為一體,并利用神經(jīng)網(wǎng)絡實現(xiàn)了為畫題詩的功能;衛(wèi)萬成等人[9]認為古詩和對聯(lián)具有很多相似之處,并利用編碼-解碼結(jié)構(gòu)實現(xiàn)了古詩和對聯(lián)的自動生成;清華大學的YiXiaoyuan等[10]基于Encoder-Decoder框架提出了九歌人工智能詩歌寫作系統(tǒng),并將該系統(tǒng)制作成網(wǎng)頁,成為目前比較成熟的古詩在線生成系統(tǒng),值得注意的是,該系統(tǒng)在自動生成藏頭詩時最多只允許輸入4個字符。

        2? 系統(tǒng)核心功能

        2.1? LSTM簡介

        LSTM(Long Short-Term Memory),即長短期記憶網(wǎng)絡,由Hochreiter & Schmidhuber[11]提出。LSTM由RNN演化而來,相比于傳統(tǒng)RNN,LSTM利用門控機制解決了RNN由于時間跨度較長而無法記憶、無法篩選數(shù)據(jù)等梯度問題[12]。LSTM結(jié)構(gòu)如圖1所示。

        在LSTM神經(jīng)網(wǎng)絡中,信息在LSTM的細胞(cell)中傳輸,通過cell內(nèi)的門控單元:遺忘門、輸入門、輸出門來進行信息過濾以篩選出最終目標信息。

        輸入門:it=sigmoid(WxiXt+WhiYt-1+bi)

        遺忘門:ft=sigmoid(WxfXt+WhfYt-1+bf)

        輸出門:ot=sigmoid(WxoXt+WhoYt-1+bo)

        式中,sigmoid是激活函數(shù),W是權重,Xi是當前時刻輸入,Yt-1是上個細胞的輸出,b為偏置分量。由公式可以看出遺忘門負責濾除掉當前細胞不需要的信息,對當前細胞中的信息進行選擇性地遺忘;輸入門負責將新的輸入信息加入當前細胞中,以完成當前細胞中信息的更新;輸出門負責對當前細胞信息進行選擇性地輸出到隱節(jié)點,該隱節(jié)點的信息會被傳輸?shù)较聜€細胞。LSTM的門控機制可以篩選出重要的信息并進行長時間記憶傳輸。

        2.2? 訓練樣本獲取

        對于古詩自動生成模型,需要大量的古詩作為模型的訓練樣本。相比于其他爬蟲框架,PySpider由于含有Web界面,且集成了phantomjs,可以迅速爬取大量的樣本。因此本文利用PySpider爬蟲框架從中華古籍網(wǎng)、中華古籍全錄等網(wǎng)站爬取了15萬首古詩作為訓練樣本。對于每一首古詩,只保留其題目和詩句,將字體轉(zhuǎn)換為簡體,每首詩的題目和詩句組成一條數(shù)據(jù)集,將所有數(shù)據(jù)集打包成一個.txt文件得到本系統(tǒng)完整的訓練樣本。爬蟲獲取的訓練樣本如圖2所示。

        2.3? 模型構(gòu)建

        創(chuàng)建一個Tokenizer分詞器。該分詞器用于統(tǒng)計數(shù)據(jù)集中每個字符出現(xiàn)的頻率、刪除出現(xiàn)次數(shù)小于15次的字符、將訓練樣本中的每個字符視為一個標記并將字符轉(zhuǎn)換成列表。

        本文利用深度學習框架TensorFlow的高級接口Keras構(gòu)建三層LSTM,每層設置128個隱藏節(jié)點;丟棄值設置為0.6;將return_state設置為True,方便查看返回的最后一個狀態(tài);模型訓練時為了節(jié)約內(nèi)存,將unroll設置為False;利用交叉熵作為損失函數(shù)(loss)。由于數(shù)據(jù)集較大,模型使用Embedding層將樣本映射成低維向量,以提高模型在訓練中的速度。Embedding層的詞表大小設置為數(shù)據(jù)集中不重復字符的總數(shù)大小,詞嵌入維度設置為128。將數(shù)據(jù)集的詞表大小設置為Dense層的維度;使用tanh作為Dense層的激活函數(shù)。由于RMSprop算法在處理數(shù)據(jù)量大的樣本集時更具有優(yōu)勢,本文選擇RMSprop算法對模型進行優(yōu)化。模型的部分代碼為:

        model = tf.keras.Sequential([tf.keras.layers.Input((None,)),

        tf.keras.layers.LSTM(128,dropout=0.6,

        return_sequences=True,

        return_state=True, stateful=True, unroll=False),

        tf.keras.layers.LSTM(128,dropout=0.6,

        return_sequences=True,

        return_state=True, stateful=True, unroll=False),

        tf.keras.layers.LSTM(128,dropout=0.6,

        return_sequences=True,

        return_state=True, stateful=True, unroll=False)])

        model.add(Embedding(input_dim=sample_size,output_dim=128,

        embeddings_initializer=uniform))

        model.add(Dense(sample_size, activation=keras.tanh))

        model.add(Activation(keras.tanh))

        model.summary()

        model.compile(optimizer=tf.keras.optimizers.RMSprop(),

        loss=tf.keras.losses.categorical_crossentropy)

        2.4? 模型訓練

        本文利用LSTM構(gòu)成的模型訓練時環(huán)境配置如表1所示。

        每次訓練Epoch數(shù)設置為30次,每次Epoch迭代步數(shù)為1 600步,BATCH_SIZE設置為32,衰減率的大小設定位0.000 2。Epoch訓練完成后,將loss值最小的模型保存為.h5文件作為本次Epoch的最優(yōu)模型。模型訓練耗時20.2小時。部分訓練過程如圖3所示。

        2.5? GUI設計

        由于Tkinter可移植性高、靈活性強,本文利用Tkinter設計了圖形用戶界面(GUI)。GUI根據(jù)LSTM構(gòu)建的模型實現(xiàn)兩個功能:“續(xù)寫古詩”和“寫藏頭詩”。本文設計的GUI界面如圖4所示。

        “續(xù)寫古詩”:在“輸入框”中輸入古詩的起始字符,點擊“古詩續(xù)寫”按鈕,系統(tǒng)將輸入字符作為起始詩句,自動生成一首完整古詩;

        “寫藏頭詩”:在“輸入框”中輸入需要藏頭的字符,點擊“寫藏頭詩”按鈕,系統(tǒng)將輸入字符作為藏頭字,自動生成一首藏頭詩。

        2.6? 系統(tǒng)示例

        續(xù)寫古詩功能示例:在“輸入框”中輸入“明月”,點擊“續(xù)寫古詩”,自動生成古詩如圖5所示。

        藏頭詩功能示例:在“輸入框”中輸入“我愛中國”,點擊“寫藏頭詩”,自動生成古詩如圖6所示。

        3? 模型評估

        目前,針對古詩自動生成模型,學術界沒有統(tǒng)一、公認嚴謹?shù)脑u估方法。這也是古詩自動生成領域亟待解決的難題之一,難點在于古詩的韻律、主題和意境等主觀性的情感難以用神經(jīng)網(wǎng)絡模型進行量化。

        對于古詩自動生成模型,現(xiàn)在的評估方法分為:一類是利用METERO、ROUGE等算法進行輔助評估。但這類評估方法只是計算出了生成文本和參考文本之間相同字符占總文本字符的概率,并沒有考慮詞語、詩句創(chuàng)造的意境,更有劉等[13]研究者證明用這類評估方法對古詩自動生成模型進行評估實際毫無意義。另一類評估方法是目前大多數(shù)研究者都會采用的評估方法:人工評估。但此類方法受評估者教育程度、個人喜好等主觀因素導致評估的片面性。

        為此,本文輸入字符設置四種長度:0—4、5—8、9—12、13—20,每種長度利用“續(xù)寫古詩”和“藏頭詩”功能自動生成20首古詩,共計160首古詩,并邀請24位具有研究生學歷的評估者對生成古詩進行打分。部分自動生成古詩如表2所示。

        設計的評估標準如表3所示,評估結(jié)果如表4所示。

        從評估結(jié)果可以看出,本文設計的古詩自動生成系統(tǒng)在隨著輸入字符長度的增加平均分在遞減,這是由于LSTM模型的門控機制對時間跨度較長的細胞進行信息篩選造成的,可通過加大訓練Epoch次數(shù)找到值更低的loss函數(shù)或通過其他優(yōu)化算法對模型進行優(yōu)化實現(xiàn)長序列的更好生成效果。但理論上本系統(tǒng)可基于任意長度語句作為系統(tǒng)輸入實現(xiàn)古詩自動生成。

        4? 結(jié)? 論

        古詩是中國傳統(tǒng)文化的重要組成部分,利用現(xiàn)代技術實現(xiàn)古詩自動生成也是對傳統(tǒng)文化的一種保護。本文簡要介紹了古詩自動生成的發(fā)展歷程,并利用LSTM神經(jīng)網(wǎng)絡實現(xiàn)了基于任意長度語句作為系統(tǒng)輸入實現(xiàn)古詩自動生成。通過對比評估,該系統(tǒng)可基于任意長度語句完成古詩自動生成。

        參考文獻:

        [1] 馬玉波,尹志剛.試論詩歌特征與讀詩的著眼點 [J].教學與管理,2007(6):71-72.

        [2] IKA J,DAENA F,SVOBODA A. Deep Learning [J].Nature Methods,2019.

        [3] ZHANG C,WANG Z Y,LYU J. Research on early warning of agricultural credit and guarantee risk based on deep learning [J/OL].Neural Computing and Applications,2021,33:[2021-08-03].https://doi.org/10.1007/s00521-021-06114-3.

        [4] The Pocketa, Pocketa School [N],Time,1962-05-25.

        [5] ZHANG X X,LAPATA M. Chinese Poetry CGeneration with Recurrent Neural Networks [C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP).Doha:Association for Computational Linguistics,2014:670-680.

        [6] 黃文明,衛(wèi)萬成,鄧珍榮.基于序列到序列神經(jīng)網(wǎng)絡模型的古詩自動生成方法 [J].計算機應用研究,2019,36(12):3539-3543.

        [7] 梁健楠,孫茂松,矣曉沅,等.基于神經(jīng)網(wǎng)絡的集句詩自動生成 [J].中文信息學報,2019,33(3):126-135.

        [8] 陳佳舟,黃可妤,封穎超杰,等.基于古代繪畫的古詩自動生成方法 [J].計算機輔助設計與圖形學學報,2021,33(7):1038-1044.

        [9] 衛(wèi)萬成,黃文明,王晶,等.基于多任務學習的古詩和對聯(lián)自動生成 [J].中文信息學報,2019,33(11):115-124.

        [10] YI X Y,LI R Y,SUNMAO S. Generating Chinese Clasical Poems with RNN Encoderdecoder [J].Computation and Language,2017.

        [11] HOCHREITER S,SCHMIDHUBER J. Long Short-Term Memory [J]. Neual computation,1997,9(8):1735-1780.

        [12] MESSINA R,LOURADOUR J. Segmentation-free handwritten Chinese text recognition with LSTM-RNN [C]//2015 13th International Conference on Document Analysis and Recognition (ICDAR).Tunis:IEEE, 2015:171-175.

        [13] LIU C W,LOWE R,SERBAN L V,et al. How NOT To Evaluate Your Dialogue System:An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation [J/OL].arXiv:1603.08023 [cs.CL].[2021-09-01].https://arxiv.org/abs/1603.08023v2.

        作者簡介:呂敬(1996—),男,漢族,貴州興義人,碩士研究生在讀,研究方向:自然語言處理;褚麗莉(1970—),女,漢族,遼寧錦州人,教授,博士,研究方向:現(xiàn)代通信網(wǎng)絡理論與技術、數(shù)據(jù)通信與網(wǎng)絡;龔瑞雪(1997—),女,漢族,遼寧沈陽人,碩士研究生在讀,研究方向:通信技術及其應用工程。

        猜你喜歡
        深度學習
        從合坐走向合學:淺議新學習模式的構(gòu)建
        面向大數(shù)據(jù)遠程開放實驗平臺構(gòu)建研究
        基于自動智能分類器的圖書館亂架圖書檢測
        搭建深度學習的三級階梯
        有體驗的學習才是有意義的學習
        電子商務中基于深度學習的虛假交易識別研究
        利用網(wǎng)絡技術促進學生深度學習的幾大策略
        考試周刊(2016年94期)2016-12-12 12:15:04
        MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
        大數(shù)據(jù)技術在反恐怖主義中的應用展望
        深度學習算法應用于巖石圖像處理的可行性研究
        軟件導刊(2016年9期)2016-11-07 22:20:49
        一区二区三区亚洲视频 | 2021久久最新国产精品| 蜜臀aⅴ永久无码一区二区| 久久综合伊人有码一区中文字幕 | 男男受被攻做哭娇喘声视频| 午夜tv视频免费国产区4| 日韩av他人妻中文字幕| 国产亚洲av看码精品永久| 成人做受视频试看60秒| 在线视频制服丝袜中文字幕| 久久国产精品一区二区| 国产激情一区二区三区在线| 岳毛多又紧做起爽| 国产精品一区高清在线观看| 亚洲免费看三级黄网站| 一区二区三区天堂在线| 久久久av精品波多野结衣| 亚洲av无码成人网站www| 亚洲最大视频一区二区三区| av网站免费线看精品| 欧美午夜精品一区二区三区电影| 本道无码一区二区久久激情| 国产不卡av一区二区三区 | 熟女体下毛毛黑森林| 国产精品美女白浆喷水| 日本视频一区二区这里只有精品 | 亚洲精品中文字幕乱码无线| 国产精品久久久久9999无码| 国内精品九九久久久精品| 国产精品亚洲av国产| 无遮挡很爽很污很黄的女同| 人人爽人人爽人人爽人人片av| 51精品视频一区二区三区| 美国黄色av一区二区| 无码人妻丰满熟妇区五十路| 无码少妇一级AV便在线观看| 日本久久精品国产精品| 米奇欧美777四色影视在线| 亚洲啪啪综合av一区| 精品国产爱在线观看| 东京热日本av在线观看|