亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于字符的遞歸神經網絡在中文語言模型中的研究與實現(xiàn)

2018-10-21 10:52:55伍逸凡朱龍嬌石俊萍

現(xiàn)代信息科技 2018年8期

伍逸凡朱龍嬌石俊萍

摘要：本文通過對基于字符的長短記憶遞歸神經網絡的研究與實現(xiàn)，探究了其在自然語言模型中的應用，并選用了小說《挪威的森林》對遞歸神經網絡進行了訓練與文本生成，總結了不足之處，探討了未來應該解決的問題與研究方向。研究結果表明遞歸神經網絡僅能學會字與字或詞與詞之間在表面的連接或變化關系，而自然語言不僅僅是文字表面的異同，更多的是字里行間中情感或思維上的變化，這些是一組序列數(shù)據(jù)所不能表達的。因此，未來自然語言模型應更加注重對于文字間情感和思維的學習，構建更接近自然語言的模型。

關鍵詞：長短記憶單元；遞歸神經網絡；自然語言處理；字詞嵌入

中圖分類號：TP391.1；TP183 文獻標識碼：A 文章編號：2096-4706（2018）08-0012-03

Abstract：Through the research and implementation of character-based recursive neural networks of long and short memory，this essay explored its application in natural language models，and selected the novel Forest in Norway to train recurrent neural networks and generate the corresponding text. Summed up the shortcomings，discussed the problems and research directions that should be solved in the future. The research results show that the recurrent neural network can only learn the connection or change relations between word and words or words on the surface，and the natural language is not only the similarities and differences between the surface of the words，but also more changes in emotions or thoughts between lines. These are a group of sequence data far from being able to express，so in the future natural language models should pay more attention to the study of sentiment and thinking between words to build a model that is closer to natural language.

Keywords：long short term memory unit；recursive neural network；natural language processing；word embedding

0 引言

自然語言是人類智慧的結晶，而自然語言處理（Nature Language Processing）是嘗試通過計算機技術結合概率論與數(shù)理統(tǒng)計等數(shù)學方法，讓計算機理解或生成自然語言的技術。近年來，自然語言處理技術隨著時代的進步逐漸興起，并迅速發(fā)展，讓計算機正確有效地理解和處理人類自然語言，并進一步實現(xiàn)與人類的對話，已成為當今具有巨大挑戰(zhàn)性的難題。

隨著時代的變遷與技術的發(fā)展，在自然語言處理中，詞匯的表征由最先的One-hot編碼發(fā)展為如今的詞嵌入編碼，詞嵌入將詞匯嵌入到一個低緯而緊湊的向量空間中，大大加強了詞匯間的聯(lián)系；文本的處理由最先的N-Grams模型發(fā)展為如今的遞歸神經網絡模型，遞歸神經網絡通過神經元在時序上的連接，成功捕獲了文本長短期的順序依賴關系；而后由Jürgen Schmidhuber等人提出的長短記憶遞歸神經網絡，即LSTM網絡，通過在網絡中引用一種叫做記憶單元的特殊結構，成功解決了遞歸神經網絡中信息在傳遞過程中的梯度消失問題。隨后研究者們將這些成果結合，并運用于各項領域，如語言翻譯、語音識別、自然語言處理和時間序列分析等，均取得了良好的效果。本文將主要討論LSTM網絡在中文語言模型中的研究與實現(xiàn)。

1 遞歸神經網絡

遞歸神經網絡（RNN，Recursive Neural Network）是一種專門解決序列問題的人工神經網絡。它通過將神經運算單元在時序上堆疊，同時記憶歷史信息，向后傳播并預測，通過反向傳播算法，讓神經網絡逼近時序數(shù)據(jù)在前后邏輯上的映射關系。

本文以LSTM單元，即長短記憶單元，作為基本遞歸神經運算單元。LSTM單元包括輸入門、忘記門、更新門和輸出門，它們將共同決定歷史信息的去留，以實現(xiàn)歷史信息的長期記憶，它的網絡結構如圖1所示。

設t時刻的數(shù)據(jù)為xt，則有：

2 自然語言模型的構建

為了使算法能處理語言文字信息，首先需要將文本信息進行統(tǒng)一編碼，我們將選用Embedding的方式進行編碼。Embedding即嵌入，它是一種通過機器學習的方法將各字符嵌入到一個低緯向量空間的算法，比起One Hot編碼，Embedding將使字符向量更加稠密，而且可以使字符之間的相關性得以體現(xiàn)。這樣一來，文本信息便可被抽象為一段編碼序列。設某個句子的One Hot編碼序列為：

首先經過一個Embedding層，將向量編碼為字向量的形式，設經過Embedding層后的序列為：

Embedding層的字符嵌入向量通過Skip-Gram模型訓練得到。為了加強字符的表達效果，在Embedding層后增加了三層全連接層，以修正線性單元ReLu作為激活函數(shù)，ReLu（x）=max（0，x）。同時為了加強網絡的映射能力以及學習能力，使用了雙層LSTM結構，在輸出層也增加了三層全連接層，以反正切函數(shù)作為激活函數(shù)，。

為了表示方便，將在一個LSTM單元中完成運算，即公式（1）～（6），綜合表示為complstm，以ht作為輸出，即ht=complstm（xt）。

優(yōu)化目標即找到一組參數(shù)，使yt盡可能與下一個詞，即ot+1相等。選用交叉熵損失函數(shù)作為神經網絡的目標函數(shù)：

其中，w代表所有的詞語或字符；t代表某個句子中的所有詞語或字符；corpus代表整個預料。

整體網絡結構，即建模步驟如圖2所示。

3 模型的訓練與結果分析

3.1 研究對象的選取

選用日本作家村上春樹的長篇小說《挪威的森林》作為網絡的學習預料。該故事主要講述了主角糾纏在情緒不穩(wěn)定且患有精神疾病的直子和開朗活潑的小林綠子之間展開的自我成長旅程的故事。

3.2 模型的訓練

設置初始學習率ε0為0.001，按指數(shù)衰減，公式為：。其中i為當前迭代次數(shù)，k為衰減周期，β為衰減系數(shù)。取β=0.95，k=100，即每迭代100次，學習率衰減為先前的0.95倍。總共經過10000次訓練，每次迭代送入語料中256句長度為64個字符的句子進行訓練，訓練過程中的交叉熵損失曲線變化如圖3所示。

3.3 模型結果分析

利用訓練好的模型，隨機生成一段約500字的文本，如下：

我此：『我說話，他也是不能見解了。我說：『你有什么都不認為怎么樣？”

“是呀！你知道?！卑⒕G說?！澳愕哪X上就不喜歡莫本的人。真的！”直子說?！爸皇俏也幌矚g的。”

“是呀！我不知道！”我說。

“不過！我不能說：”

我們走著停進，像著一種東西袋喝酒。

“你是吧？渡邊，我的腦袋就有這種地方呀！”直子問道?！耙驗槟銈兌际莻€年間了。我現(xiàn)在做，你會常常在你的人，你也很想一起子的?！蔽艺f。

“我也不會這么做？”我說。

阿綠從床袋中探下聽里，又重起阿綠似?！拔也恢赖?。”我笑看同聲音。

“我會常打開始的事?！卑⒕G說。

“你不會見你家看了。你們不能去跟他嗎？”玲子說。

“是呀！你不知道嗎？渡邊，你們也不會再做，還是有自己一樣?！卑⒕G說。

“是呀！你知道自己的意思。我們也不能這么去呀！我們的話一次不能？”

“你可以說的。雖然我這些愛了，不知道，這里到東西就會去吃飯了。”阿綠說?！安贿^你，她們就能去你。”

“可能，她們就能不會見，我是我不喜歡地做，還是你一樣的話不行？我不要常去?！蔽艺f。“不過，你會常把這種事，而且真是我一直子做的?！?/p>

“我們去的？”初而看著我。然后我們就像想了起來了。我一直在他一個人把新宿啡的收費吃了一次。我們穿著我旁邊。在我自己不知道的，我也覺得自己的話。如果順利也許這么單。一切一個人，我只要告決硬子的事的。我想我的。”他說?！安皇?？”

從中可以看到，在語法上已經學會了要用引號將說的話引起來，然后或前或后會有個說話人；同時在某些語氣詞后學會了使用標點，比如“呀”后面接感嘆號，“嗎”后面接問號等，但在語義上還存在很多問題，句子表述以及上下文聯(lián)系有些含糊不清。

4 結論

遞歸神經網絡在序列數(shù)據(jù)的學習上確實有很大的優(yōu)勢，能從序列數(shù)據(jù)中找到序列之間的變化規(guī)律與趨勢。對于自然語言來說，它不僅僅是簡單的序列數(shù)據(jù)變化，而是夾雜了機器所不能理解的情感和思維等。

將文本數(shù)據(jù)序列化，從本質上是一個降維的過程，是將一段夾雜著復雜情感和思維邏輯的內容降維成一段低維的序列數(shù)據(jù)，然后送入神經網絡學習，而數(shù)據(jù)的降維必定是一個信息丟失的過程，只是丟失的程度不同，甚至有些數(shù)據(jù)在降維后必定會丟失大量信息，自然語言就是其中的一種，這是因為它太過復雜。換句話說，神經網絡能學到的也就只是這段被大大壓縮過的文本信息，即它永遠無法理解語言本身的內涵。

綜上所述，自然語言處理不能僅僅從字符之間或是詞語之間來考慮它們表面的關系，更應從詞語或是字符的內在出發(fā)，嘗試量化這些字符或是詞語在情感上的變化，以及一些思維邏輯上的因果關系，構建深層次、多結構的神經網絡進行訓練，從而得到更好的自然語言模型。

參考文獻：

[1] 彭程.基于遞歸神經網絡的中文自然語言處理技術研究 [D].南京：東南大學，2014.

[2] 李長亮.基于神經網絡的自然語言處理研究 [D].北京：中國科學院大學，2015.

[3] 梁天新，楊小平，王良，等.記憶神經網絡的研究與發(fā)展 [J].軟件學報，2017，28（11）：2905-2924.

[4] 張曉.基于LSTM神經網絡的中文語義解析技術研究 [D].南京：東南大學，2017.

[5] 吳稟雅，魏苗.從深度學習回顧自然語言處理詞嵌入方法 [J].電腦知識與技術，2016，12（36）：184-185.

[6] Liu P，Qiu X，Huang X. Learning context-sensitive word embeddings with neural tensor skip-gram model [C]//International Conference on Artificial Intelligence. AAAI Press，2015：1284-1290.

[7] 張鈸，張鈴.人工神經網絡的設計方法 [J].清華大學學報（自然科學版），1998（S1）：4-7.

作者簡介：伍逸凡（1996.11-），男，漢族，湖南人，本科。研究方向：深度學習；石俊萍（1974.10-），女，苗族，湖南花垣人，副教授，碩士研究生。研究方向：大數(shù)據(jù)分析與處理。