普次仁,侯佳林,劉 月,翟東海1,
1.西藏大學 藏文信息技術研究中心,拉薩 850000
2.西南交通大學 信息科學與技術學院,成都 610031
深度學習算法在藏文情感分析中的應用研究*
普次仁1+,侯佳林2,劉 月2,翟東海1,2
1.西藏大學 藏文信息技術研究中心,拉薩 850000
2.西南交通大學 信息科學與技術學院,成都 610031
+Corresponding author:E-mail:441436418@qq.com
PU Ciren,HOU Jialin,LIU Yue,et al.Deep learning algorithm app lied in Tibetan sentiment analysis.Journalof Frontiersof Com puter Scienceand Technology,2017,11(7):1122-1130.
針對以往進行藏文情感分析時算法忽略藏文語句結(jié)構、詞序等重要信息而導致結(jié)果準確率較低的問題,將深度學習領域內(nèi)的遞歸自編碼算法引入藏文情感分析中,以更深層次提取語義情感信息。將藏文分詞后,用詞向量表示詞語,則藏文語句變?yōu)橛稍~向量組成的矩陣;利用無監(jiān)督遞歸自編碼算法對該矩陣向量化,此時獲得的最佳藏文語句向量編碼融合了語義、語序等重要信息;利用藏文語句向量和其對應的情感標簽,有監(jiān)督地訓練輸出層分類器以預測藏文語句的情感傾向。在實例驗證部分,探討了不同向量維度、重構誤差系數(shù)及語料庫大小對算法準確度的影響,并分析了語料庫大小和模型訓練時間之間的關系,指出若要快速完成模型的訓練,可適當減小數(shù)據(jù)集語句條數(shù)。實例驗證表明,在最佳參數(shù)組合下,所提算法準確度比傳統(tǒng)機器學習算法中性能較好的語義空間模型高約8.6%。
深度學習;情感分析;遞歸自編碼;遞歸神經(jīng)網(wǎng)絡
文本情感分析,即針對“人們關于產(chǎn)品、服務、事件等實體的評論”等文本內(nèi)容做出的情感分類及預測,在自然語言處理中占有極其重要的地位[1]。藏語作為人類語言的一種,在藏族日常文化交流和信息傳遞中極其重要,因此針對藏語的文本情感分析,在挖掘藏語文本隱藏信息,了解藏族文化特色及提高國家語言監(jiān)測力上有較大的作用[2]。而當前的情感分析算法,大多基于傳統(tǒng)的機器學習算法,如支持向量機、條件隨機場、信息熵等。將這些算法歸納起來可分為3類:有監(jiān)督、無監(jiān)督和半監(jiān)督學習。有監(jiān)督學習雖然效果不錯,但需要大量的人工標注數(shù)據(jù)集;無監(jiān)督學習完全依賴算法,雖然減少了人力成本,但效果不太理想;而半監(jiān)督學習依賴少量人工標注數(shù)據(jù)集,借助算法,往往可將結(jié)果發(fā)揮到最佳[3]。許多學者都利用傳統(tǒng)的機器學習算法,對文本情感分析進行大量的研究。文獻[4]利用文本特征信息分別對樸素貝葉斯、最大熵、支持向量機3種模型進行訓練,結(jié)果表明,支持向量機在選用一元詞作為特征時準確率最高。文獻[5]通過分析文本中短語與正向和負向情感詞的關聯(lián)度,并計算正向關聯(lián)度和負向關聯(lián)度的差值來判斷文本極性,以進行情感分析。文獻[6]提出的Dependency-Sentiment-LDA模型,將情感詞的話題語境和局部依賴關系加入進去,大大提高了情感分析的精確度,但此模型依賴人工標注數(shù)據(jù)集,降低了整體性能。在微博情感分析中,文獻[7]利用微博中文本的標簽、表情符號等特征,訓練分類器進行文本情感分析。文獻[8]則將藏語句法結(jié)構和語義特征向量結(jié)合起來構建語義特征空間,進行藏文微博的情感分析。
以上皆是淺層的機器學習算法,然而隨著大數(shù)據(jù)時代的到來[9-10],淺層學習在依靠海量信息做出分析、預測的今天,已經(jīng)越來越不能滿足人們的需求。2006年,Hinton等人[11-12]提出的深度學習,以在海量數(shù)據(jù)中優(yōu)異的學習能力,給解決這一問題帶來了福音。接著,Mnih和Hinton[13]提出了一種可擴展的分層神經(jīng)網(wǎng)絡語言模型,提高了神經(jīng)網(wǎng)絡語言模型的訓練速度和結(jié)果精確度。文獻[14]提出了一種循環(huán)神經(jīng)網(wǎng)絡的深度學習模型,建模時考慮語料的上下文信息,大大降低了模型的出錯率。以上模型均忽略了文本語義的結(jié)構信息,以致結(jié)果仍不太理想。深度學習中的遞歸自編碼模型,因?qū)⒄Z義信息融合在樹形結(jié)構中,在文本特征提取、情感分析中表現(xiàn)優(yōu)異,受到諸多研究者的青睞。文獻[15-17]皆是較好的范例。文獻[15]首次用詞向量取代詞袋模型對詞進行編碼,以半監(jiān)督遞歸自編碼的方式訓練模型,取得了不錯的分析效果。文獻[16]在詞向量表示詞語的基礎上,又引入矩陣來記錄修改與中心詞組合的詞表示法,以使預測更加準確。文獻[17]針對文獻[16]中參數(shù)太多的缺點,引入張量進行坐標變換,以降低整體算法的參數(shù)數(shù)量。
由于藏語是小語種語言,專門針對藏語進行情感分析的研究少之又少,本文在廣泛閱讀前人資料的基礎上將深度學習算法引入藏文情感分析領域,以提高藏語情感分析的準確度。本文所做工作大體可分為以下三部分:首先,將深度學習中的半監(jiān)督遞歸自編碼模型結(jié)合藏語特點引入藏文情感分析領域,以更深層次學習語義結(jié)構信息,提高分析精確度;其次,探索了該模型在藏語環(huán)境下向量維度、數(shù)據(jù)集大小及重構誤差對情感分析結(jié)果的影響,并找出最佳組合以達到最好的分析效果;最后,通過實例驗證表明,本文模型比傳統(tǒng)的支持向量機、特征融合等情感分析準確度要高。
本文利用半監(jiān)督遞歸自編碼模型并結(jié)合藏語特點,進行藏文情感分析。首先,對訓練集中的藏文語句進行分詞處理,然后利用詞向量對詞語進行編碼,這樣一條語句可以用一個矩陣來表示;其次,引入半監(jiān)督遞歸自編碼模型,將藏文語句的矩陣表示轉(zhuǎn)換成向量;再次,將語句向量和其對應的情感標簽作為輸入,有監(jiān)督地訓練輸出層,以預測藏語情感信息;最后,討論向量維度、數(shù)據(jù)集大小及重構誤差系數(shù)對模型的影響。
2.1 用詞向量表示藏語詞語
首先,采用西藏大學藏文信息技術研究中心研發(fā)的藏語分詞軟件對訓練集語料進行分詞處理。然后,對詞語進行向量編碼。如可將詞語“?? ?????????(藏族)”表示為[0.1,0.2,0.7,0.5],“??? ????(同胞)”表示為[0.9,0.5,0.6,0.4]。因此,一條分詞后的藏語句子可用矩陣表示。抽象來說,若一條語句x含有m個詞,則此語句可表示為x[1:m],句子中第k個詞可用xk表示。至于xk的向量維度,將在2.4節(jié)中討論,此處假設維度為n,則xk∈Rn,R為實數(shù)。若句子中有v個詞,則藏文語句可用矩陣L∈Rn×|v|表示。
2.2 無監(jiān)督貪心迭代
傳統(tǒng)的遞歸自編碼算法是如圖1所示,將句子中相鄰節(jié)點組合成新的節(jié)點,以層層推進的方式得到最終藏語句子的向量表示。若一條藏文語句x用向量表示為(x1,x2,…,xm),對應的詞節(jié)點表示為(c1,c2,…,cm),即詞c1的向量表示為x1,詞c2的向量表示為x2,以此類推。計算c1、c2父節(jié)點p1的方法如式(1):
其中,w(1)∈ Rn×2n為系數(shù)矩陣;b(1)為偏置項;f采用tanh函數(shù)。為了評估p1能否最大限度地表示原始節(jié)點c1、c2的信息,算法通過增加重構層(如圖1中形如c′1、c′2的矩形節(jié)點所示),并計算重構層與原始層的誤差來衡量信息前向傳輸時的損失程度,若誤差過大,將迭代調(diào)整系數(shù)矩陣的權值,直至誤差收斂。此處式(2)給出重構層節(jié)點c′1、c′2的計算方法,其他節(jié)點可以此類推。重構誤差的計算方法如式(3)所示。
Fig.1 Traditional recursiveauto encoders圖1 傳統(tǒng)的遞歸自編碼算法
由以上可知,傳統(tǒng)的遞歸自編碼算法是在樹形結(jié)構已經(jīng)確定的情況下,計算整體誤差,然后調(diào)整權值,直至誤差收斂的。然而,這種固定的樹形結(jié)構,往往不能很好地表達句子的本意,即此種算法經(jīng)過參數(shù)調(diào)整后所得的誤差,仍然不是最小的。因此,本文將一種基于最佳樹結(jié)構的遞歸自編碼算法引入藏語的文本情感分析中。此算法基于貪心迭代的思想,可以很好地將前面生成的藏文語句的矩陣表示轉(zhuǎn)換成向量表示。最佳樹的生成算法思想如下:假如一條藏文語句x中有4個詞,即x=(c1,c2,c3,c4),首先計算相鄰詞語間的重構誤差,若(c1,c2)重構誤差為E1,(c2c3)重構誤差為E2,(c3,c4)重構誤差為E3,且E2<E1<E3,則在生成樹的第一層,將選用(c2,c3)進行組合,其父節(jié)點p2將進入第二層節(jié)點,此時第二層節(jié)點變?yōu)?c1,p2,c4);同理,接著計算第二層相鄰節(jié)點間的重構誤差,若(c1,p2)的重構誤差小于(p2,c4),則(c1,p2)的父節(jié)點p3將進入第三層,此時第三層節(jié)點為(p3,c4),此時(p3,c4)的父節(jié)點即為該句子的最佳向量表示,整個過程以無監(jiān)督的方式生成了最佳樹結(jié)構。
以上建樹過程,也是學習藏語句子內(nèi)部詞語間語序關系的過程,學習出的最優(yōu)樹結(jié)構,可以將整條語句的誤差降低到最小值,即這種最佳的樹結(jié)構很好地表達了原始語義。同時,為了突出樹中不同層內(nèi)節(jié)點間誤差對整棵樹誤差貢獻度不一樣,在計算重構誤差時加入了相應的權值,如式(4):
其中,n1、n2為當前節(jié)點c1、c2下面的詞數(shù)。
計算父節(jié)點時,可以使用式(5)進行歸一化,以方便計算:
2.3 有監(jiān)督輸出藏語情感傾向
當獲得藏語句子的最佳向量表示后,需要加入輸出層,輸出句子的情感傾向。此處輸出層是通過有監(jiān)督的方式訓練的,即在句子的向量表示和其相應的情感傾向已知的情況下,通過調(diào)整參數(shù)權值,以使預測結(jié)果最優(yōu)。設藏文語句的向量表示為p,則輸出層情感分類計算方法如式(6):
其中,softmax(·)為輸出層分類器函數(shù);wlabel為系數(shù)矩陣;label為情感分類數(shù)。輸出層誤差是以交叉熵的方式計算的,如式(7)所示:
其中,d是一個k維的概率分布向量(此處情感分類數(shù)label=k),且d;tk為第k種情感的標簽值。
2.4 半監(jiān)督遞歸自編碼算法
若藏文數(shù)據(jù)集大小為N,則本次優(yōu)化的目標函數(shù)為式(8):
其中,E(x,t;θ)為一條語句的誤差;∑(x,t)E(x,t;θ)則為整個數(shù)據(jù)集上的誤差。計算一條語句的誤差,也即遍歷整棵樹所有非終端節(jié)點并計算其誤差累加和,計算方法如式(9):
其中,s為一個非終端三元組;T()為遍歷函數(shù)。為了使結(jié)果預測更加準確,在計算一個非終端三元組誤差時,將重構誤差和交叉熵誤差結(jié)合起來計算,如圖2所示。因為二者所占比重不同,需要加入?yún)?shù)α以調(diào)整二者比例,所以一個三元組s的誤差計算公式為:
Fig.2 A nonterm inal treenode圖2 一個非終端三元組
優(yōu)化目標函數(shù)式(8)時,一般采用L-BFGS(limitedmemory BFGS)算法,可較快速度得出最優(yōu)解,算法所用梯度為:
綜上,此處給出本文進行藏語情感分析時所用算法。
算法TSSRAE(Tibetan sentiment analysis based on semi-supervised RAE)
參數(shù)說明:
TrainingData,訓練數(shù)據(jù)集(帶情感標簽的藏語語料庫);
θ,參數(shù)集
J,優(yōu)化目標函數(shù);
Jsum,訓練集誤差和;
x,訓練集中的一條語句;
BestTreex,句子x的最優(yōu)結(jié)構樹
輸入:TrainingData
輸出:θ
1.Initializeθand usingwordsvector initializeTraining-Data;
2.J←0,Jsum←0;
3.Foreach sentencex∈TrainingData
4. ConstructBestTreexthrough greedy unsupervised RAE;
5.E(x,t;θ)←0;
6. Foreach non-term inalnodes∈BestTreex
12.Repeat2~11 untilJconvergence.
從上述算法訓練過程可得,本文算法先以無監(jiān)督的方式得到最佳樹結(jié)構,然后整個模型在有監(jiān)督的方式下得到最優(yōu)參數(shù)集,因此本文算法屬于半監(jiān)督形式。
此次實例驗證分兩部分:首先,找出遞歸自編碼算法分析藏語情感傾向時的最佳參數(shù)組合;接著,利用這組參數(shù)組合初始化本文算法,并和傳統(tǒng)算法作對比,以證明本文算法的有效性。
本文語料庫由來自西藏大學藏文信息處理中心的多名骨干成員,在新浪微博、騰訊微博精選的44 000條藏文語句組成,情感傾向分積極和消極兩類,其中積極情感在語料庫中標記為1,消極為-1。語料庫分為TibetanCorpus和TibetanCorpusTest兩個。Tibetan-Corpus主要用于深度學習模型訓練及后期不同算法之間訓練時間、結(jié)果準確度對比;同時另增加Tibetan-CorpusTest測試語料庫,以對比算法間的準確度和F值,增強實驗結(jié)果的說服力。語料庫詳情如表1語料庫信息表和表2語料庫樣例表所示。
Table1 Corpus information table表1 語料庫信息表
Table 2 Corpusexample table表2 語料庫樣例表
3.1 參數(shù)選擇
用本文算法進行藏文情感分析時,詞向量的維度和重構誤差系數(shù)對算法準確度的影響非常大。因此為了將模型訓練到最佳狀態(tài),必須找出一組最優(yōu)組合,使算法準確度達到最佳。文獻[3,18]分別給出了中文和英文的選擇方案,此處將通過大量嘗試和多次實驗的方式找出藏語下的最佳組合,即分別設置詞向量長度為10,20,…,200,重構誤差系數(shù)為0.1,0.2,…,0.9,采用排列組合的方式將二者的所有組合方案測試一遍,統(tǒng)計出最優(yōu)組合。實驗時,針對語料庫TibetanCorpus采用十折交叉法(將語料庫TibetanCorpus的4萬條語句分成10份,輪流用其中9份做訓練集,1份做測試集進行實驗,結(jié)果準確度取10次實驗的均值),以使結(jié)果更加準確。實驗結(jié)果如表3詞向量維度和重構誤差系數(shù)選擇表所示,統(tǒng)計相應重構誤差系數(shù)和詞向量維度下算法的準確度(準確度=預測正確條數(shù)/總條數(shù))。
從表3中實驗結(jié)果可得出,當重構誤差系數(shù)為0.2,詞向量維度為110時,本文算法在藏語語料庫中準確率最高,可達87.2%。且實驗數(shù)據(jù)表明,當重構誤差系數(shù)為0.2時,不同向量維度下算法的準確率幾乎都為當前維度下的最好值,進一步說明重構誤差系數(shù)為0.2,是藏語環(huán)境下的最好選擇。
Table3 Selection tableofword vectordimensionsand reconstruction errorweights表3 詞向量維度和重構誤差系數(shù)選擇表
接著,本文將驗證語料庫大小和情感分析準確率及訓練時間之間的關系,以便后續(xù)研究者在準確率和訓練時間之間正確地取舍。本次實驗計算機采用AMD雙核2.5GHz,內(nèi)存4GB,采用十折交叉法,數(shù)據(jù)量大小從1萬條語句逐漸增加到4萬條,實驗結(jié)果如圖3、圖4所示。
從圖3實驗結(jié)果可得出,隨著數(shù)據(jù)量的增大,算法準確度逐漸提高,當語料庫大小在1萬條語句和2.5萬條語句之間時,算法準確度增長較快;從2.5萬條增加到4萬條,準確度只增加了0.2%,說明一定范圍內(nèi)語料庫的大小對算法準確度有較大影響,當語料庫足夠大時,單純增加語料庫的數(shù)據(jù)量,很難提高算法準確度。從圖4可得出,隨著語料庫的增大,模型訓練時間幾乎成倍增長,從1萬條語句時的5 h,到4萬條語句的65 h,時間翻了13倍,而準確度卻只增加了約1%。因此,若需要快速地將模型訓練好并以用于情感分析,可適當減小訓練集,這樣在算法準確度改變不大的情況下,也能達到較好的情感分類效果。
Fig.3 Relation between corpusamountand accuracy圖3 語料庫大小和準確度關系圖
3.2 算法性能對比
3.2.1 準確度和F-measure
Fig.4 Relation between corpusamountand training time圖4 語料庫大小和訓練時間關系圖
為了驗證本文算法的有效性,此處將本文所訓練的深度學習算法和傳統(tǒng)的支持向量機[19]、語義空間模型[8]及特征融合模型[20]進行藏文情感分析對比。此處深度學習模型重構誤差系數(shù)為0.2,詞向量維度為110。實驗時,首先選取語料庫TibetanCorpus,采用十折交叉法,分別測試語料庫大小為0.3、0.6、1.0、4.0萬條語句時算法的準確度,結(jié)果如圖5所示;接著為了增強實驗說服力,將以上算法在TibetanCorpus語料庫的全部4萬條數(shù)據(jù)下訓練后,用TibetanCorpusTest進行測試,實驗結(jié)果如表4所示。
Fig.5 Accuracy comparison of differentalgorithms圖5 算法準確度對比圖
Table4 F-measure comparison of differentalgorithms表4 算法F-measure對比表
從圖5結(jié)果可得,本文算法TSSRAE藏語情感分析的準確度比上述最好的傳統(tǒng)機器學習算法的語義空間模型高約8.6%;從表4可得,在測試語料庫TibetanCorpusTest中,TSSRAE模型的F值比語義空間模型高約8.3%。之所以TSSRAE模型表現(xiàn)優(yōu)異,是因為深度學習模型能夠更好地獲取傳統(tǒng)算法學習不到的文本語義結(jié)構信息,并將其保留在樹形結(jié)構中,最終以向量的形式輸出到分類器中進行情感分析,這些信息在語句情感分析中往往非常重要;并且深度學習算法經(jīng)過層層的特征提取,將句子的矩陣表示映射到向量上,使獲得的特征更加精簡、充分,更加有利于后期進行情感分析。另外,圖5中語料庫從0.6萬條語句增加到4萬條時,傳統(tǒng)算法準確度皆變化不大(最高約2.0%),而TSSRAE深度學習算法準確度增加了約6.5%,說明傳統(tǒng)算法對語料庫學習能力沒有深度學習算法強,即深度學習算法能夠從更多的語料中挖掘信息,以調(diào)整模型參數(shù),使算法達到更佳狀態(tài),作出更準確的預測。
3.2.2 算法訓練時間
此處研究算法在不同大小數(shù)據(jù)集下的訓練時間,以進一步探討其優(yōu)劣。語料庫選用TibetanCorpus,實驗時分別測試不同算法在數(shù)據(jù)集為0.3、0.6、1.0、4.0萬條語句時的訓練時間,結(jié)果如表5所示。
Table5 Time consuming comparison of differentalgorithms表5 算法訓練耗費時間對比表
從表5可得,傳統(tǒng)的語義空間模型、特征融合和SVM模型在訓練時,訓練時間約為線性增長,即數(shù)據(jù)集從0.3萬到4萬,擴大了約13倍,訓練時間則從0.2~0.3 h,漲到了3.0~5.1 h,也增大了13倍左右;而深度學習模型TSSRAE,則從最初的0.9 h增長到了65.7 h,時間擴大了70多倍,說明深度學習算法雖然準確度較高,但是訓練耗時太長,特別是在數(shù)據(jù)量較大情況下,要想獲得較好的算法效果,更需要較長的訓練時間。究其原因,和傳統(tǒng)算法比,深度學習算法內(nèi)部神經(jīng)網(wǎng)絡的參數(shù)調(diào)整,算法執(zhí)行過程中不停地調(diào)優(yōu)迭代,都是十分耗時的工作;數(shù)據(jù)量越大,每一輪的參數(shù)調(diào)整,所執(zhí)行的任務也就越多,這樣一輪一輪的任務疊加,使深度學習算法的訓練時間幾乎成指數(shù)級增長。
本文將深度學習算法引入藏語的情感分析中,并對其進行了進一步的融合,如藏語詞向量的表示,藏文語句最優(yōu)結(jié)構樹的獲取等,并通過大量實驗找出了適合藏語的重構誤差系數(shù)和詞向量維度,以使算法性能達到最佳;同時本文還探討了深度學習模型訓練時間和語料庫大小的關系,指出若要快速建立較好的模型,可適當減少語料庫的大小;最后將本文深度學習藏語情感分析算法和傳統(tǒng)機器學習算法進行對比實驗,表明本文深度學習算法的有效性。當然,本文的研究也存在一定不足,如并未探究語料庫大小對深度學習算法性能的影響,以及深度學習中參數(shù)較多引起的過擬合現(xiàn)象等,這都將成為本文今后工作的重心。
[1]Liu Bing.Sentiment analysis and opinionmining[M]//Synthesis Lectures on Human Language Technologies.San Rafael,USA:Morgan&Claypool Publishers,2012.
[2]Cao Hui,Dong Xiaofang,Meng Xianghe.Statistical research on Tibetan newspaperwords[J].Journal of Northwest University forNationalities:NaturalScience,2012,33(3):50-54.
[3]Liang Jun,Chai Yumei,Yuan Huibin,et al.Deep learning for Chinesemicro-blog sentimentanalysis[J].Journal of Chinese Information Processing,2014,28(5):155-161.
[4]Pang Bo,Lee L,Vaithyanathan S.Thumbsup?sentimentclassification using machine learning techniques[C]//Proceedingsof the2002Conference on EmpiricalMethods in Natural Language Processing,Pennsylvania,USA,Jul6-7,2002.Stroudsburg,USA:ACL,2002:79-86.
[5]Turney PD.Thumbs up or thumbs down?semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th AnnualMeeting of the Association for Computational Linguistics,Pennsylvania,USA,Jul 7-12,2002.Stroudsburg,USA:ACL,2002:417-424.
[6]Li Fangtao,Liu Nathan,Jin Hongwei,et al.Incorporating reviewer and product information for review rating prediction[C]//Proceedings of the 22nd International JointConference on Artificial Intelligence,Barcelona,Spain,Jul 16-22,2011.Menlo Park,USA:AAAI,2009:1820-1825.
[7]Davidov D,TsurO,RappoportA.Enhanced sentiment learning using tw itter hashtags and smileys[C]//Proceedings of the 23rd International Conference on Computational Linguistics:Posters,Beijing,Aug 23-27,2010.Stroudsburg,USA:ACL,2010:241-249.
[8]Yuan Bin,Jiang Tao,Yu Hongzhi.Emotional classification method of Tibetan m icro-blog based on semantic space[J].Application Research of Computers,2016,33(3):682-685.
[9]Du Zhijuan,Wang Shuo,Wang Qiuyue,etal.Survey on social media big data analytics[J].Journal of Frontiers of Computer Scienceand Technology,2017,11(1):1-23.
[10]Hou Jialin,Wang Jiajun,Nie Hongyu.MapReduce performance optimization based on anomaly detection model in heterogeneous cloud environment[J].Journal of Computer Applications,2015,35(9):2476-2481.
[11]Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data w ith neural networks[J].Science,2006,313(5786):504-507.
[12]Hinton G E,Osindero S.A fast learning algorithm for deep beliefnets[J].NeuralComputation,2006,18(7):1527-1554.
[13]Mnih A,Hinton G.A scalable hierarchical distributed language model[C]//Proceedings of the 21st International Conference on Neural Information Processing Systems,Vancouver,Canada,Dec 8-10,2008.Red Hook,USA:Curran Associates,2008:1081-1088.
[14]M ikolov T,KarafiátM,Burget L,etal.Recurrent neural network based languagemodel[C]//Proceedings of the 11th Annual Conference of the International Speech Communication Association,Chiba,Japan,Sep 26-30,2010.Red Hook,USA:Curran Associates,2010:1045-1048.
[15]Socher R,Pennington J,Huang EH,etal.Semi-supervised recursive autoencoders for predicting sentimentdistributions[C]//Proceedings of the 2011 Conference on EmpiricalMethods in Natural Language Processing,Edinburgh,UK,Jul 27-31,2011.Stroudsburg,USA:ACL,2011:151-161.
[16]Socher R,Huval B,Manning C D,etal.Semantic compositionality through recursivematrix-vector spaces[C]//Proceedings of the 2012 JointConference on EmpiricalMethods in Natural Language Processing and Computational NaturalLanguage Learning,Jeju Island,Korea,Jul 12-14,2012.Stroudsburg,USA:ACL,2012:1201-1211.
[17]Socher R,Perelygin A,Wu JY,etal.Recursive deepmodels for semantic compositionality over a sentiment treebank[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing,Seattle,USA,Oct18-21,2013.Stroudsburg,USA:ACL,2013:1631-1642.
[18]Socher R.Recursive deep learning for natural language processing and computer vision[D].Palo A lto:Stanford University,2014.
[19]Han Kaixun.Research on text sentiment analysis based on support vector machine[D].Daqing:Northeast Petroleum University,2014.
[20]Zhu Shaojie.Research on text sentiment classification based on deep learning[D].Harbin:Harbin Institute of Technology,2014.
附中文參考文獻:
[2]曹暉,董曉芳,孟祥和.藏文報紙詞語統(tǒng)計研究[J].西北民族大學學報:自然科學版,2012,33(3):50-54.
[3]梁軍,柴玉梅,原慧斌,等.基于深度學習的微博情感分析[J].中文信息學報,2014,28(5):155-161.
[8]袁斌,江濤,于洪志.基于語義空間的藏文微博情感分析方法[J].計算機應用研究,2016,33(3):682-685.
[9]杜治娟,王碩,王秋月,等.社會媒體大數(shù)據(jù)分析研究綜述[J].計算機科學與探索,2017,11(1):1-23.
[10]侯佳林,王佳君,聶洪玉.基于異常檢測模型的異構環(huán)境下MapReduce性能優(yōu)化[J].計算機應用,2015,35(9):2476-2481.
[19]韓開旭.基于支持向量機的文本情感分析研究[D].大慶:東北石油大學,2014.
[20]朱少杰.基于深度學習的文本情感分類研究[D].哈爾濱:哈爾濱工業(yè)大學,2014.
普次仁(1970—),男,西藏日喀則人,2008年于西藏大學藏文信息處理專業(yè)獲得碩士學位,現(xiàn)為西藏大學副教授,主要研究領域為深度學習,數(shù)據(jù)挖掘,藏語情感分析。主持國家自然科學基金、西藏自治區(qū)科技廳軟科學計劃項目等,發(fā)表學術論文10余篇。
HOU Jialin was born in 1990.He is an M.S.candidate at School of Information Science and Technology,Southwest Jiaotong University.His research interests include deep learning and parallel computing.
侯佳林(1990—),男,河南洛陽人,西南交通大學信息科學與技術學院碩士研究生,主要研究領域為深度學習,并行計算。
LIU Yuewas born in 1993.She is an M.S.candidate at School of Information Science and Technology,Southwest Jiaotong University.Her research interest is deep learning.
劉月(1993—),女,四川達州人,西南交通大學信息科學與技術學院碩士研究生,主要研究領域為深度學習。
ZHAIDonghaiwasborn in 1974.He received the Ph.D.degree in traffic information engineering and control from Southwest Jiaotong University in 2003.Now he is an associate professor at School of Information Science and Technology,Southwest Jiaotong University.His research interests include deep learing,datam ining and image inpainting.
翟東海(1974—),男,山西芮城人,2003年于西南交通大學交通信息工程及控制專業(yè)獲得博士學位,現(xiàn)為西南交通大學信息科學與技術學院副教授,主要研究領域為深度學習,數(shù)據(jù)挖掘,數(shù)字圖像處理。主持國家自然科學基金、國家社會科學基金、西藏自治區(qū)科技廳科技計劃項目等,發(fā)表學術論文30余篇。
Deep Learning Algorithm App lied in Tibetan SentimentAnalysis*
PU Ciren1+,HOU Jialin2,LIUYue2,ZHAIDonghai1,2
1.Tibetan Information Technology Research Center,TibetUniversity,Lhasa 850000,China
2.Schoolof Information Science and Technology,Southwest Jiaotong University,Chengdu 610031,China
During Tibetan sentimentanalysis in past,the algorithm always ignores some important information like sentences structure and words order etc,which lead low accuracy of sentiment analysis.To deeply getmore sentimentdetails,this paper proposesa novelapproach of Tibetan sentimentanalysisbased on deep learning.Firstly,one word in Tibetan is represented by aword vectorwhile one sentence is represented by amatrix which is composed by itsword vectors;Secondly,thematrix is turned into a vectorwhich containsmost importantdetails such as sentence meaning and words order etc,through an unsupervised recursive auto encoder algorithm;Finally,the classifier in output layer is trained by supervisedmethod which uses theword vectors and its sentiment tags.In the experiment part,this paper discusses the selection of word vector dimensions and reconstruction errorweights,studies corpus amounthow to affect algorithm accuracy,and analyzes the relation between corpus amount and training time.The experimental results demonstrate that the proposedmethod can improve accuracy up 8.6%compared w ith semantic spacemodelwhich isalmost the best in traditionalmachine learning algorithm.
was born in 1970.He
the M.S.degree in Tibetan information processing from Tibet University in 2008.Now he isan associate professoratTibetUniversity.His research interests include deep learning,datamining and Tibetan sentimentanalysis.
A
:TP391.1
*The National Natural Science Foundation of China under Grant No.61540060(國家自然科學基金);the National Soft Science Research Program of China underGrantNo.2013GXS4D150(國家軟科學研究計劃項目);the Research Program of Science and Technology Departmentof TibetAutonomousRegion(西藏自治區(qū)科技廳科學研究項目).
Received 2016-11,Accepted 2017-01.
CNKI網(wǎng)絡優(yōu)先出版:2017-01-05,http://www.cnki.net/kcms/detail/11.5602.TP.20170105.0828.004.htm l
Keywords:deep learning;sentimentanalysis;recursive auto encoder;recursive neuralnetworks