張 英, 鄭秋生
(中原工學院, 鄭州 450007)
基于循環(huán)神經網絡的互聯(lián)網短文本情感要素抽取
張 英, 鄭秋生
(中原工學院, 鄭州 450007)
針對大數(shù)據互聯(lián)網短文本信息,比較幾種深度循環(huán)神經網絡(Recurrent Neural Networks,RNN)模型,提出了一種基于雙向長短時記憶(Bidirectional Long Short-Term Memory,BLSTM)的循環(huán)神經網絡模型的互聯(lián)網短文本情感要素抽取方法。實驗結果表明,該方法不僅可以有效完成互聯(lián)網短文本中情感要素抽取工作,而且明顯提高了抽取準確率。
互聯(lián)網短文本;情感要素抽??;循環(huán)神經網絡;自然語言處理;深度學習
隨著互聯(lián)網與信息技術的高速發(fā)展,互聯(lián)網的文本信息迅速膨脹。面對互聯(lián)網海量的文本數(shù)據,準確、高效地從這些文本中挖掘觀點信息對網絡輿情分析具有重要意義。文本情感要素的抽取是指抽取情感詞語的評價對象以及評價對象屬性。因此,利用抽取的文本情感信息進行分析挖掘,對識別情感詞語以及判斷文本情感的傾向性等情感分析問題具有重要的意義[1]。
目前,情感分析是自然語言處理領域的研究熱點,雖然在情感傾向性分析的研究方面已經取得了不少成果,但通過情感要素抽取來判斷情感傾向性方面的研究并不充分[2]。目前,情感要素抽取的方法主要有兩類:一類是使用基于機器學習的條件隨機場(Conditional Random Field,CRF)方法識別情感對象;另一類是首先依照情感詞表抽取情感詞,然后通過關聯(lián)規(guī)則抽取情感對象。這些傳統(tǒng)方法對現(xiàn)今大量格式隨意的互聯(lián)網文本處理效果并不理想,主要原因是其結果局限于特征模板、情感詞典資源以及句法分析器等外部資源[3]。
與傳統(tǒng)方法不同,本文針對現(xiàn)今互聯(lián)網文本格式隨意、數(shù)據量大、無法使用正規(guī)文本的分類方法等問題,提出一種基于循環(huán)神經網絡(CNNs)模型的中文互聯(lián)網短文本情感要素抽取方法。
1.1 循環(huán)神經網絡
近年來,隨著深度學習的發(fā)展,神經網絡應用已在眾多自然語言處理領域中取得了不錯的成績。Bengio Y等首先提出了利用神經網絡構建語言模型來處理自然語言問題[4]。2010年,Mikolov T等提出使用循環(huán)神經網絡構建語言模型,充分利用上下文信息進行語言建模[5],但該模型存在梯度爆炸和消失等問題。隨后,長短時記憶(Long Short-Term Memory,LSTM)型循環(huán)神經網絡由Morin F等提出[6],并由Graves A等進行了改進[7]。實驗證明,該網絡結構在長序列依賴問題中非常有效。因此,LSTM模型的很多優(yōu)化改進形式被應用于神經語言程序(Neuro-Linguistic Programming,NLP)領域,如Huang Z等使用BLSTM-CRF模型處理序列標注問題[8],Chiu J P C等使用BLSTM-CNNs模型解決命名實體識別問題[9],Wang P等使用基于Word Embedding的BLSTM模型處理標注問題[10]。這些對深度循環(huán)神經網絡(Recurrent Neural Networks,RNN)模型進行優(yōu)化應用的方法大都取得了不錯的效果。
1.2 情感要素抽取
在情感要素抽取方面,張凌等以情感詞為基準,通過計算先驗概率建立詞性模板庫,根據依存規(guī)則抽取情感要素[11]。劉鴻宇等使用句法分析結果抽取候選評價對象,再使用基于網絡挖掘的PMI算法和名詞剪枝方法,對候選評價對象進行過濾篩選[12]。Hu M等按照標簽序列規(guī)則(Label Sequential Rule,LSR)匹配語料中產品特征的方法[13]針對性強,可以高效地識別結構類似文章中的評價對象,但是該方法需要人工編寫相應的模板,通用性不強。這些方法具有一定的應用效果。但是,在中文的文本情感要素抽取方面,傳統(tǒng)的抽取方法和現(xiàn)有研究在開放的數(shù)據上表現(xiàn)并不令人滿意,而且傳統(tǒng)的情感要素抽取方法大多是基于大量的標注語料,這些標注語料也都是較規(guī)則文本,用這些規(guī)則語料訓練得到的模型并不能對如今互聯(lián)網上大量的不規(guī)則數(shù)據進行有效抽取。
雖然傳統(tǒng)方法在情感分析問題中獲得了應用,但這些方法對情感特征的選擇過于依賴現(xiàn)有情感詞典或人工標注的語料庫,需要大量人力資源對情感語料庫進行不斷完善。由于情感特征的選擇是情感分析的重要依據,因此,本文提出用基于深度學習的word2vec模型來提取情感特征,處理互聯(lián)網短文本情感分類問題。
在自然語言處理中,詞向量的選擇在模型的訓練過程中具有重要意義。傳統(tǒng)的one-hot representation詞向量表示方法要求創(chuàng)建一個詞表并給每個詞編號,向量的維度是詞表的大小,每個詞的向量中只有一個維度的值為1,該維度就是詞在詞表中的位置,并用稀疏矩陣來存儲。但這種表達方式容易造成維數(shù)災難,并且這種詞向量表示法與詞語的語義并沒有太大的關系。因此,本文選用Hinton G E[14]提出的Embedding表示法。這種詞向量表示法不僅將詞表示在低維向量空間中,而且可以反映出詞語間潛藏的語義關系,這對詞語的情感分析具有重要意義。
1.3 詞向量
本文使用word2vec工具訓練Embedding詞向量,用連續(xù)詞袋模型(Continuous Bag-Of-Words,CBOW)和Skip-Gram模型實現(xiàn)詞向量計算[15]。其中,CBOW模型以圍繞目標單詞的語境作為輸入來預測目標單詞;Skip-Gram模型則與其相反,通過當前詞來預測語境。本文選擇Skip-Gram模型來訓練語料,通過調整窗口大小訓練出合適的詞向量。
隨著神經網絡的發(fā)展,越來越多的神經網絡模型在處理自然語言問題中得到了應用。本文在前人研究的基礎上,提出了采用BLSTM-RNN網絡模型的互聯(lián)網短文本要素抽取方案。
2.1 RNN模型
RNN是近年來深度學習領域比較流行的模型,實踐證明它應用于NLP領域是非常成功的。與其他人工神經網絡不同,循環(huán)神經網絡是一種序列模型,用來處理序列數(shù)據。在傳統(tǒng)神經網絡模型中,輸入層與輸出層之間彼此獨立,而循環(huán)神經網絡的輸出不僅依據當前的輸入而且與上一時刻的輸出有關。因此,RNN是具有記憶功能的,能夠記住以前的計算信息。典型的RNN網絡如圖1所示。
圖1 RNN網絡圖
圖1展示了一個完整展開的RNN網絡。其中:Xt表示t時刻的輸入;St為t時刻隱藏層的狀態(tài),它是網絡的記憶單元,通過循環(huán)方式傳遞到下一層。根據當前層的輸出與上一隱藏層的狀態(tài)進行計算,可得出St=f(UXt-WSt-1)。其中,f是非線性激活函數(shù),如tanh或ReLU;通常,St的初始值為0;Ot表示t時刻的輸出,僅與當前時刻的St有關,Ot=softmax(VSt);U、V、W分別為輸入、輸出、隱藏層權重矩陣。
在傳統(tǒng)神經網絡中,各個網絡層的參數(shù)是不能共享的。而在RNN中,由于每步都在做相同的事,只是輸入不同,因此,每輸入一步,各層都共享參數(shù)U、V、W。這樣,RNN大大降低了網絡中需要學習的參數(shù)。在圖1所示的網絡圖中,每個時間步都會有輸出,但是,在循環(huán)神經網絡中,每個時間步并不必有輸出。比如,使用循環(huán)神經網絡來預測一條語句所表達的情緒,僅需要得到輸入最后一個單詞后的輸出,并不需要知道輸入每個單詞后的輸出。同理,每個時間步的輸入也不是必需的。RNN的關鍵之處在于隱藏層,隱藏層能夠捕捉序列的信息。
2.2 LSTM型RNN模型
循環(huán)神經網絡是一個在時間序列上傳遞的神經網絡,在沿時間序列反向傳播(Back Propagation Through Time,BPTT)訓練時會產生時間序列上梯度消失的問題。為了解決梯度消失問題,Graves A等設計了長短時記憶單元(Long Short Term Memory,LSTM)型RNN[7]。圖2為一個LSTM單元。
圖2 LSTM單元
在圖2中,可以將隱藏層當作一個黑盒子,給定當前輸入和先前隱藏狀態(tài),然后計算出下一個隱藏狀態(tài)。LSTM在本質上仍屬于循環(huán)神經網絡,只是用一個記憶單元(Memory Cell,MC)來代替RNN中的隱藏層,并用門開關實現(xiàn)時間序列上的記憶功能,從而避免梯度消失的問題。LSTM網絡的隱藏層結構如圖3所示。
圖3 LSTM網絡的隱藏層結構
在圖3中:i、f、o分別為輸入門、輸出門、忘記門單元;c為1個記憶單元,用來描述LSTM的當前狀態(tài)。輸入門、輸出門和忘記門是3個控制門,其輸出分別連接到1個乘法單元上,用來控制網絡的輸入、輸出以及記憶單元的讀、寫狀態(tài)。關于LSTM的計算如下:
it=σ(WiXt+Uiht-1+bi)
(1)
ft=σ(WfXt+Ufht-1+bf)
(2)
ot=σ(WoXt+Uoht-1+bo)
(3)
gt=tanh(WcXt+Ucht-1+bc)
(4)
ct=ftect-1+itegt
(5)
ht=ote tanh(ct)
(6)
式(1)、式(2)、式(3)分別為t時刻輸入門、輸出門、忘記門的計算式。這些門的計算式由使用不同參數(shù)矩陣的相同計算方程構成,并且所有門都具有相同的尺寸,即隱藏狀態(tài)的大小相等。gt為t時刻候選的隱藏狀態(tài),根據當前輸入和以前的隱藏狀態(tài)計算得出。ct為t時刻記憶單元的計算式。ht為t時刻LSTM單元的輸出。bi、bf、bo為3個控制門相應的偏置向量。σ表示激活函數(shù)。
與傳統(tǒng)的RNN網絡模型相比,LSTM模型的門控機制使記憶單元在工作中可以保持一段時間的信息記憶,并在訓練時保證內部梯度不受不利因素的干擾。因此,LSTM適合于處理和預測時間序列中間隔和延遲非常長的重要事件[16]。
2.3 BLSTM型RNN模型
由于LSTM型RNN模型只能獲取單向文本信息,因此,設計了一種BLSTM型RNN模型,以便從兩個方向獲取上下文信息。圖4所示BLSTM模型即為雙向LSTM模型。
圖4 BLSTM模型
類似于LSTM,BLSTM在隱藏層包含一個正向LSTM和一個反向LSTM。根據LSTM相關公式,可以推導出如下正向LSTM的公式:
F_it=σ(WiXt+UiF_ht-1+bi)
(7)
F_ft=σ(WfXt+UfF_ht-1+bf)
(8)
F_ot=σ(WoXt+UoF_ht-1+bo)
(9)
F_gt=tanh(WcXt+UcF_ht-1+bc)
(10)
F_ct=F_ftect-1+F_iteF_gt
(11)
F_ht=F_ote tanh(F_ct)
(12)
同理,可以推導出反向LSTM的公式。將模型每個時刻的正向、反向記憶單元的狀態(tài)ct和輸出ht連接,即可獲得BLSTM層的特征輸出。BLSTM可以學習更長距離的上下文特征信息。因此,通常情況下,使用雙向LSTM型RNN模型的效果優(yōu)于單向LSTM型RNN模型。
2.4 基于BLSTM的情感要素抽取模型訓練
本文將圖5所示基于BLSTM的模型應用于情感要素抽取問題。
圖5 BLSTM神經網絡模型
對于BLSTM-RNN模型,本文使用隨機梯度下降法來訓練模型,即先隨機初始化參數(shù),然后每次批處理部分樣本,參與運算,更新參數(shù)值。為加快梯度下降的收斂速度,使用ReLU激活函數(shù),同時在LSTM層的各節(jié)點訓練中引入Dropout策略,可以有效防止模型的過擬合[10]。該方法不僅能找到最優(yōu)解,而且訓練速度較快。
3.1 數(shù)據集
為了驗證模型的有效性,本文將COAE2014評測中任務5提供的40 000條微博數(shù)據作為實驗數(shù)據,并以該評測最終公布的抽取結果中6 479條評價對象為實驗的訓練語料,并且采用了數(shù)據集提供的40 000條數(shù)據訓練詞向量。表1為數(shù)據樣例。表2為標注語料樣例。
表1 數(shù)據樣例
表2 標注語料樣例
注:B-P表示評價對象;B-F表示評價對象屬性;O表示其他。
3.2 模型參數(shù)
在使用神經網絡模型時,參數(shù)設定是非常重要的環(huán)節(jié),不同的參數(shù)訓練得到的結果有很大不同。BLSTM-RNN網絡模型的參數(shù)設置如表3所示。
表3 BLSTM-RNN網絡模型參數(shù)設置
3.3 對比實驗
本文用傳統(tǒng)基于機器學習的CRF模型對比采用深度學習的RNN模型和LSTM模型,基于CRF模型,選擇詞作為特征,并添加詞性以及依存關系兩種特征組合,使用CRF++工具進行實驗,而且,在深度學習模型中,以Word2vec工具訓練的詞級別的特征向量作為特征。
3.4 實驗結果分析
本文采用十折交叉法驗證實驗結果,并根據COAE2014評測提供的實驗結果評價指標計算出了各模型的準確率(見表4)。
表4 不同模型的準確率
從表4可以看出,使用BLSTM模型處理要素抽取任務效果較好,證明該模型是有效的。對比實驗結果可以發(fā)現(xiàn),使用BLSTM模型比傳統(tǒng)模型在準確率上有明顯提升,深度學習模型的結果明顯優(yōu)于傳統(tǒng)機器學習模型的結果。對比RNN模型與BLSTM-RNN模型的準確率可以發(fā)現(xiàn),使用BLSTM-RNN模型可以取得更好的效果。
本文針對情感要素抽取問題將模型擴展到雙向LSTM型網絡,通過實驗證明了BLSTM-RNN模型處理情感要素抽取問題的可行性。與傳統(tǒng)模型相比,采用該模型能夠取得更好的效果。因此,對于互聯(lián)網短文本,采用基于詞向量的BLSTM-RNN模型進行情感要素抽取是可行的。
[1] 劉銘, 昝紅英, 原慧斌. 基于SVM與RNN的文本情感關鍵句判定與抽取[J]. 山東大學學報(理學版), 2014,49(11):68-73.
[2] 劉鴻宇, 趙妍妍, 秦兵,等. 評價對象抽取及其傾向性分析[J]. 中文信息學報, 2010, 24(1):84-88.
[3] 趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學報, 2010, 21(8):1834-1848.
[4] Bengio Y, Ducharme R, Vincent P, et al. A Neural Probabilistic Language Model[J]. The Journal of Machine Learning Research, 2003, 3(6): 1137-1155.
[5] Mikolov T, Karafiát M, Burget L, et al. Recurrent Neural Network Based Language Model[C]//The International Speech Communication Association. Makuhari, Chiba: Interspeech, 2010:1045-1048.
[6] Morin F, Bengio Y. Hierarchical Probabilistic Neural Network Language Model[J]. Aistats,2005, 5: 246-252.
[7] Graves A, Mohamed A, Hinton G. Speech Recognition with Deep Recurrent Neural Networks[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Washington: IEEE, 2013: 6645-6649.
[8] Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF Models for Sequence Tagging[J].Computer Science, 2015,9:1508-1519.
[9] Chiu J P C, Nichols E. Named Entity Recognition with Bidirectional LSTM-CNNs[J]. Computer Science, 2015,11:8308-8315.
[10] Huang Z, Xu W, Yu K. A Unified Tagging Solution: Bidirectional LSTM Recurrent Neural Network with Word Embedding[J]. Computer Science,2015,11:511-515.
[11] 張凌, 馮欣. 基于詞性模板與依存分析的中文微博情感要素抽取[J]. 計算機科學, 2015,42(6A):474-478.
[12] 劉鴻宇, 趙妍妍, 秦兵,等. 評價對象抽取及其傾向性分析[J]. 中文信息學報, 2010, 24(1):84-88.
[13] Hu M, Liu B. Mining and Summarizing Customer Reviews[C]// Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Washington:ACM, 2004:168-177.
[14] Hinton G E. Learning Distributed Representations of Concepts[C]//Proceedings of the Eighth Annual Conference of the Cognitive Science Society. Washington: IEEE, 1986: 1-12.
[15] 蔡慧蘋,王麗丹,段書凱. 基于word embedding和CNN的情感分類模型[J]. 計算機應用研究,2015(10):1-5.
[16] 梁軍,柴玉梅,原慧斌,等. 基于極性轉移和LSTM遞歸網絡的情感分析[J]. 中文信息學報, 2015, 29(5): 152-159.
(責任編輯:王長通)
Sentiment Classification of the Short Texts on Internet Based on Convolutional Neural Networks
ZHANG Ying, ZHENG Qiu-sheng
(Zhongyuan University of Technology, Zhengzhou 450007, China)
For the information of big data Internet essay, a deep convolution neural network (convolutional neural networks, CNNs) model of the short text on the Internet is put forward. And first use the Skip-gram in the Word2vec training model of feature vector, then further extracting feature vector into CNNs, finally training the classification model of the depth convolution neural network. The experimental results show that, compared with classification methods of traditional machine learning, this method not only could effectively handle Internet emotion classification in this essay, but also significantly improves the accuracy of emotion classification.
short texts on the Internet; sentiment classification; convolutional neural networks; natural language processing; deep learning
2016-09-08
國家自然科學基金項目 (U1304611);河南省科技攻關項目(132102210186);河南省科技攻關項目(132102310284);河南省教育廳科學技術研究重點項目(14A520015)
張英 (1992-),女,河南洛陽人,碩士生,主要研究方向為機器學習、自然語言處理。
1671-6906(2016)06-0082-05
TP391
A
10.3969/j.issn.1671-6906.2016.06.017