基于用戶和產(chǎn)品Attention機制的層次BGRU模型

2018-06-01 10:50:33鄭雄風丁立新萬潤澤

計算機工程與應(yīng)用 2018年11期

鄭雄風，丁立新，萬潤澤

ZHENG Xiongfeng,DING Lixin,WAN Runze

武漢大學(xué) 計算機學(xué)院，武漢 430072

School of Computer Science,Wuhan University,Wuhan 430072,China

隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展，網(wǎng)絡(luò)上產(chǎn)生大量用戶參與的，針對熱點事件、產(chǎn)品等有價值的評論文本信息，比如，微博、電商平臺、餐飲平臺等等。這些評論信息包含了人們豐富的情感色彩和情感傾向。情感分析的目的就是自動地從文本中提取和分類用戶針對產(chǎn)品或事件的主觀情感信息，幫助商家或者政府部門完成數(shù)據(jù)分析和輿情監(jiān)控等任務(wù)。因此，情感分析也成為了自然語言處理領(lǐng)域的重要課題之一。情感分析分為情感信息的抽取、情感信息的分類以及情感信息的檢索與歸納[1]。本文解決的主要是文檔級別的情感信息分類問題。文檔級別的情感信息分類任務(wù)主要是為了自動分類出用戶產(chǎn)生的情感文本中針對某一產(chǎn)品或事件表達的情感傾向（積極或者消極）或者情感強度（如電影或者餐廳評論文本中的1～5星評價）。

目前的大多數(shù)方法將情感分類看作文本分類問題的一種。通過機器學(xué)習的方法，將情感傾向或者情感評分當作有監(jiān)督的數(shù)據(jù)，訓(xùn)練分類器對文本情感進行分類成為一種主流的方法。機器學(xué)習中的特征表示是影響分類器效果的重要因素，因此，文本情感語義的特征表示成為文本情感分類問題中的關(guān)鍵且耗時的一步。傳統(tǒng)的特征表示方法包括One-hot、N-Gram以及領(lǐng)域?qū)＜彝ㄟ^文本或者額外的情感詞典設(shè)計的一些有效特征[2-4]。在SemEval2013評測任務(wù)中取得第一名的系統(tǒng)就是設(shè)計了有效的特征達到的[5]。然而，特征工程是一個勞動密集型的任務(wù)，且需要較多的領(lǐng)域知識。因此，特征的自動學(xué)習漸漸成為人們研究的重點?；谏窠?jīng)網(wǎng)絡(luò)的深度學(xué)習方法就是自動學(xué)習特征的一種方法[6]。并且隨著深度學(xué)習在計算機視覺、語音識別和自然語言處理等領(lǐng)域的成功應(yīng)用，越來越多的基于深度學(xué)習的文本情感分類模型產(chǎn)生，這些模型普遍地利用詞嵌入（Word Embedding）的方法進行特征表示[7]，這種低維度詞向量表示方法不僅能很好地解決傳統(tǒng)語言模型中詞表示中存在的維度過大的問題，而且，能很好地保留詞的語義信息，使得語義相似的詞距離更近。另外，在詞嵌入的基礎(chǔ)上，通過卷積神經(jīng)網(wǎng)絡(luò)（CNN）[8-10]、遞歸神經(jīng)網(wǎng)絡(luò)（Recursive Neural Network）[11-12]和循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network）[13-14]等神經(jīng)網(wǎng)絡(luò)模型，能很好地表示句子或者文檔級別的語義信息，由于深度學(xué)習具有良好的特征自動抽取能力，從而在文本情感分類問題中得到了廣泛的應(yīng)用。

然而，目前大多數(shù)基于神經(jīng)網(wǎng)絡(luò)的文本情感分類模型只考慮了文本內(nèi)容相關(guān)的情感語義，忽略了與文本相關(guān)的用戶信息以及文本內(nèi)容所描述的產(chǎn)品信息。同時，有研究表明，用戶的喜好與產(chǎn)品的特點對于用戶的評分有著重要的影響[15]。因此，唐都鈺等人首先提出了通過矩陣和向量的形式將用戶喜好和產(chǎn)品信息加入文本情感分類模型的方法[16-17]，陳慧敏等人在此基礎(chǔ)上，提出了一些改進方案[18]：以向量來表示用戶和產(chǎn)品信息，同時，通過Attention的方法將用戶和產(chǎn)品信息與文本語義信息結(jié)合，該方法在一定程度減少模型參數(shù)的同時，使得文本中語義信息更加豐富。但是，這兩種方法都是隨機初始化用戶和產(chǎn)品信息，然后在模型訓(xùn)練過程中更新用戶和產(chǎn)品的參數(shù)信息。這樣的方法得到的用戶和產(chǎn)品信息并不一定準確，同時會使得模型參數(shù)過大，導(dǎo)致模型的訓(xùn)練速度過慢，甚至導(dǎo)致模型過擬合。為了解決這個問題，文獻[19]提出了另外一種生成用戶喜好和產(chǎn)品信息的方法，首先將原始數(shù)據(jù)按照用戶和產(chǎn)品分組，然后按照相應(yīng)的事件順序排序，然后應(yīng)用循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）模型分別得到用戶和產(chǎn)品信息的特征表示。最后將得到的用戶和產(chǎn)品信息特征表示和文本的特征表示結(jié)合到一起作為分類器的輸入特征。雖然解決了用戶和產(chǎn)品信息特征表示的問題，但其中的文本情感語義表示模型過于簡單，不能有效地將文本中的上下文語義信息與用戶和產(chǎn)品信息結(jié)合。受到文獻[18-19]的啟發(fā)，同時為了解決當前方法中的問題，本文提出了兩個改進方案：

（1）本文改進了文獻[18]中的文本語義表示模型，利用雙向的GRU模型代替原有的簡單模型，結(jié)合文檔-句子和句子-詞的層次模型，更加有效地結(jié)合了文本中的上下文語義信息，整體的模型架構(gòu)如圖1所示。

（2）針對用戶和產(chǎn)品的評價數(shù)據(jù)，首先利用奇異值分解（SVD）的方法，得到用戶和產(chǎn)品的先驗信息，作為預(yù)訓(xùn)練好的模型參數(shù)，避免了用戶和產(chǎn)品信息的參數(shù)增加。然后利用基于Attention的神經(jīng)網(wǎng)絡(luò)模型將用戶和產(chǎn)品信息結(jié)合到文本上下文語義的表示中，使得文本的情感語義信息更加準確。

1 基于層次神經(jīng)網(wǎng)絡(luò)模型的文本情感分類模型

這部分主要介紹基于層次神經(jīng)網(wǎng)絡(luò)的文本情感分類模型中3個重要的步驟：文檔特征表示、基于Attention機制的用戶和產(chǎn)品信息及文本情感分類模型。首先介紹如何通過層次神經(jīng)網(wǎng)絡(luò)模型由詞向量得到句子級別的特征表示，再由句子級別特征表示得到文檔級別的特征表示，然后介紹通過Attention機制將用戶和產(chǎn)品信息與文本情感語義結(jié)合的方法，最后將得到的文檔級別特征表示作為文本分類器的特征，完成文本情感分類的任務(wù)。

1.1 基于層次結(jié)構(gòu)的文本特征表示

研究表明，句子或者文檔級別的語義由它們所包含的詞的語義和詞結(jié)合的方式?jīng)Q定的，而文檔主要由句子組成，句子主要由詞組成。因此，首先得到詞的特征表達，也就是詞嵌入（Word Embedding），然后在詞嵌入的基礎(chǔ)上，通過卷積神經(jīng)網(wǎng)絡(luò)（CNN）、遞歸神經(jīng)網(wǎng)絡(luò)（Recursive Neural Network）或者循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network）的深度學(xué)習模型，得到句子級別的特征表示。同理，在句子級別的特征表示基礎(chǔ)上，得到文檔級別的特征表示。

圖1 基于用戶和產(chǎn)品Attention的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)

假設(shè)用戶u∈U有一條關(guān)于產(chǎn)品 p∈p的評價文本d∈d，文本d由n條句子{s1,s2,s3,…,sn}組成，其中第i個句子由li長度的詞組成{,,…,}。

在詞級別的語義特征表示中，所有的詞是通過一個詞嵌入矩陣Lw∈Rd×|V|來表示，其中，d表示詞的維度，|V |是所有詞的數(shù)量。Lw中的詞向量∈Rd可以通過兩種方法生成：

（1）隨機初始化，并作為整個模型的參數(shù)的一部分，參與到模型的訓(xùn)練過程中，是一種簡單可行的方法。

（2）結(jié)合語料，通過word2vector[7]，glove[20]等詞嵌入方法預(yù)訓(xùn)練生成。

在句子級別的語義特征表示中，通過詞向量建模句子級別的語義特征時，有兩種結(jié)構(gòu)：樹結(jié)構(gòu)[21-22]、層次結(jié)構(gòu)[23]。目前，由于句子或者文檔中存在的序列結(jié)構(gòu)，因此序列模型（如RNN等）正廣泛地用于自然語言處理，特別是句子或者文檔的特征表示中[24]。LSTM模型是RNN模型的一種，是為了解決RNN模型中出現(xiàn)的長距離依賴和梯度消失問題提出的。文獻[18]就是采用層次結(jié)構(gòu)，基于簡單的LSTM模型分別得到句子和文檔的語義特征。LSTM模型將句子中每個詞作為序列模型中的神經(jīng)元，詞向量神經(jīng)元的狀態(tài)和隱藏狀態(tài)是利用上一個詞向量的神經(jīng)元狀態(tài)和隱藏狀態(tài)來更新的。最后，為了在詞向量的基礎(chǔ)上得到句子的特征表示，可以利用LSTM模型的最后一個詞向量的隱藏狀態(tài)作為句子的特征表示，或者是利用LSTM模型中所有隱藏層狀態(tài)取平均作為句子的特征表示。

同理，在文檔級別的特征表示中，將文檔的每個句子作為LSTM中的序列單元，利用同樣的方法，就能得到文檔級別的語義特征，作為最終文本分類器的特征輸入，就能得到文檔的情感分類。

1.2 基于用戶和產(chǎn)品Attention模型的文本語義特征

在文本情感分析任務(wù)中，與文本相關(guān)的用戶和產(chǎn)品信息是文本情感分類的重要影響因素[19]。用戶的偏好特性會影響用戶文本中情感的極性，同時，不同品質(zhì)產(chǎn)品得到的文本情感極性也會大不相同。唐都鈺等人在文獻[16]中提出，利用矩陣建模用戶和產(chǎn)品的偏好對文本情感的影響。通過實驗驗證了用戶和產(chǎn)品信息對文本內(nèi)容和文本情感分類的重要性。但是，由于用戶和產(chǎn)品矩陣信息會有很大的稀疏性，很難得到比較準確的用戶和產(chǎn)品信息。因此，本文提出利用用戶和產(chǎn)品向量建模用戶和產(chǎn)品偏好對文本情感的影響。另外，基于LSTM得到的文本語義特征有個重要的缺點，那就是序列后面的神經(jīng)元比序列前的神經(jīng)元在最后的特征表示中所占權(quán)重更大。特別是在文檔級別的語義中，往往，有些文檔前面的句子比后面的更重要。而采用取平均的方法得到的句子或文檔表示能一定程度上緩解這個問題，但會導(dǎo)致所有序列單元所代表的權(quán)重一樣。而實際情況是不同的詞在句子的語義特征表示中所占有的權(quán)重是不一樣的。

而注意力（Attention）機制是通過文獻[25]開始得到了廣泛關(guān)注，起初注意力機制是被用于圖像分類中。文獻[26]提出了將注意力機制用于機器翻譯的方法，自此，注意力機制開始應(yīng)用在自然語言領(lǐng)域。由于注意力機制是對人腦注意力的一種模擬，通過自動加權(quán)的模型實現(xiàn)，因此，在神經(jīng)網(wǎng)絡(luò)模型中越來越流行[27]。本文提出將注意力機制引入文本特征表達中，如圖2所示，X表示詞向量特征，S表示句子的語義特征，注意力機制在生成句子的語義特征時，是將X的GRU單元通過a加權(quán)得到，a的幾何意義就是不同詞在句子的語義特征表示的重要性，a越大表示這個詞在句子中的情感語義更重要。

圖2 基于Attention機制的句子級別語義特征結(jié)構(gòu)

因此，本文提出將帶有用戶和產(chǎn)品信息的向量通過Attention的方法，結(jié)合層次BGRU模型，在得到文本的語義特征時，選擇與用戶和產(chǎn)品相關(guān)度較高的詞或者句子參與到下一步的計算中。這樣，就能得到更準確的文本語義特征。如圖1所示，word attention用于在句子級別的語義特征表示中，結(jié)合用戶和產(chǎn)品偏好信息賦予語義更相關(guān)的詞更大的權(quán)重，sentence attention用于在文檔級別的語義特征表示中，結(jié)合用戶和產(chǎn)品偏好信息賦予語義更相關(guān)的句子更大的權(quán)重。通過這種層次結(jié)構(gòu)的語義關(guān)系生成，同時結(jié)合用戶和產(chǎn)品信息，就能得到更準確的文本語義特征作為文本分類器的特征輸入。具體計算過程如下：

假設(shè)用戶和產(chǎn)品信息分別通過向量u∈Rdu和p∈Rdp來表示，其中du和dp分別表示用戶和產(chǎn)品向量的維度。

在句子級別的文本語義特征表示中，假設(shè)si表示通過Attention方法得到的句子語義特征，那么

其中，e是計算詞的重要性程度的函數(shù)：

其中，WH、WU和WP是參數(shù)矩陣，v是參數(shù)向量，vT是v的轉(zhuǎn)置向量。

在文檔級別的文本語義特征表示中，假設(shè)d是通過Attention方法由文本中的句子級別的特征得到的文檔級別的特征表示，那么：

其中，βi是句子級別特征表示序列中第i個隱藏層狀態(tài)hi，計算方法與一致。最終得到的d就是新的文本語義特征表示。

1.3 基于Softmax的文本情感分類

在第1.2節(jié)中得到的文檔級別的特征表示d可以直接作為文本分類器的特征輸入。首先通過一個非線性層（sigmoid，relu，tanh）將d 映射到維度為C 的空間，C是文本分類器中類別的數(shù)目，計算公式：

然后，利用softmax分類器，得到文本情感分類分布，計算公式：

其中，pc是文本情感類別為c的預(yù)測概率。本文使用交叉熵損失函數(shù)作為模型訓(xùn)練的優(yōu)化目標，通過Back-Propagation方法計算損失函數(shù)梯度同時更新模型參數(shù)，Back-Propagation計算公式：

其中，D是訓(xùn)練數(shù)據(jù)集；是文本情感分類為c的0-1分布，即，如果文本情感分類為c，那么的值為1，否則的值為0。

2 基于層次BGRU的語義組合模型

2.1 LSTM模型與GRU模型

Long Short Time Memory（LSTM）模型與Gated Recurrent Unit（GRU）模型都是循環(huán)神經(jīng)網(wǎng)絡(luò)模型的一種，GRU模型是LSTM模型的一種改進。如圖3所示，i，f，o 表示LSTM中的input，forget，output三種門機制，r，z表示GRU模型中的reset和update兩種門機制[28]。通過門機制的優(yōu)化，GRU模型參數(shù)量更少，在保證模型效果的同時，很好地簡化了模型，在很多場景下得到了廣泛的應(yīng)用[18，29]。

圖3 LSTM與GRU的門機制結(jié)構(gòu)

另外，GRU模型更新神經(jīng)元狀態(tài)的方法也與LSTM略有不同，GRU模型神經(jīng)元狀態(tài)計算框架如圖4所示。

圖4 GRU模型結(jié)構(gòu)圖

在t時刻，GRU中的狀態(tài)通過下列公式計算：

其中，zt，rt分別是update，reset門機制函數(shù)，⊙表示矩陣對應(yīng)元素相乘，σ表示sigmoid函數(shù)，W表示GRU模型共享的參數(shù)。

2.2 基于雙向GRU得到句子級別的特征

單向RNN模型在表示文本上下文語義中存在不足，在模型訓(xùn)練過程中會導(dǎo)致權(quán)重的偏差。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)（BRNN）的基本思想是提出每一個訓(xùn)練序列向前和向后分別是兩個循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN），而且這兩個都連接著一個輸出層。這個結(jié)構(gòu)提供給輸出層輸入序列中每一個點的完整的過去和未來的上下文信息。所以，本文提出利用雙向的GRU來建模句子和文檔級別的語義特征。雙向GRU就是在隱層同時有一個正向GRU和反向GRU，正向GRU捕獲了上文的語義特征信息，而反向GRU捕獲了下文的語義特征信息，這樣相對單向GRU來說能夠捕獲更多的特征信息，所以通常情況下雙向GRU表現(xiàn)比單向GRU或者單向RNN要好，得到的上下文語義特征更加準確。

假設(shè)一個句子si中有T個詞，每個詞為,t∈[0,T]，將句子si看作一個序列，句子中的詞為句子序列的組成部分。那么，分別通過前向GRU和后向GRU模型就能得到句子的表達。

通過結(jié)合得到句子si的語義表示：

2.3 基于雙向GRU得到文檔級別的特征

同理，假設(shè)一個文檔d中有L個句子，每個句子為si,i∈[0,L]，將文檔d當作一個序列，文檔中的句子為文檔序列的組成部分。通過前向GRU和后向GRU模型分別得到文檔級別的特征表示：

通過結(jié)構(gòu)就能得到最終的文檔級別的語義特征。

將前向GRU和后向GRU得到的結(jié)果合并到一起作為最終的句子或文檔的特征表達，這樣通過上下文共同產(chǎn)生的語義特征更加準確，并且可以直接作為最終文本情感分類器的特征。

3 基于SVD的用戶和產(chǎn)品向量

3.1 用戶和產(chǎn)品向量初始化

在文本情感分析任務(wù)中，與文本相關(guān)的用戶和產(chǎn)品信息是文本情感分類的重要影響因素。因此，用戶和產(chǎn)品向量的初始化對于模型的最終效果也同樣重要。其中一種方式是隨機初始化用戶和產(chǎn)品向量，并作為整個模型的參數(shù)的一部分，參與到模型的訓(xùn)練過程中。但這樣會導(dǎo)致模型的參數(shù)量過大，訓(xùn)練速度慢，甚至可能產(chǎn)生過擬合，從而影響了模型的效果。因此，為了得到準確的用戶和產(chǎn)品初始化向量，本文提出通過奇異值分解（SVD）的方法，利用用戶和產(chǎn)品的評論信息，得到用戶和產(chǎn)品的向量作為模型的先驗信息，一方面避免了增加大量的模型參數(shù)，另一方面，在有足夠數(shù)據(jù)集的情況下，通過SVD得到的用戶和產(chǎn)品信息更加準確，語義信息更加豐富，最終提高模型的收斂速度和準確率。

3.2 基于SVD的用戶和產(chǎn)品向量

假設(shè)用戶-產(chǎn)品矩陣為c，如表1所示，對應(yīng)的值為用戶對產(chǎn)品的評分值，空白部分說明用戶對相應(yīng)的產(chǎn)品沒有評分。一般的用戶-產(chǎn)品矩陣維度很大，相應(yīng)的計算量和所需的存儲空間都很大。如表2所示，Yelp2014數(shù)據(jù)集中，用戶和產(chǎn)品維度分別為4 818和4 194。SVD就是一種不丟失原有矩陣信息的矩陣分解方法。同時，SVD能得到相應(yīng)的用戶和產(chǎn)品在低維度的潛在語義的向量表示，作為用戶和產(chǎn)品向量的初始化值。

表1 用戶-產(chǎn)品矩陣c

利用SVD計算用戶-產(chǎn)品矩陣c的k-秩近似矩陣xk。其中，xk可以表示成三個矩陣的乘積：xk=UkΣk。通過這種方法，可以將用戶-產(chǎn)品矩陣中用戶和產(chǎn)品分別映射到低維度的uk和vk中，從而得到一個比原始空間小得多的更加有效的語義空間。uk和vk作為初始化的用戶和產(chǎn)品向量，語義相近的用戶向量距離越近，語義相似的產(chǎn)品向量距離更近。具體對比結(jié)果見實驗部分。另外，本文通過對不同k值下用戶-產(chǎn)品矩陣信息的保證驗證，取k值為100時，能保留原始矩陣99%的信息，同時也有效地降低了用戶和產(chǎn)品向量的維度。

4 實驗

實驗部分通過三個數(shù)據(jù)驗證了本文提出的方法在文本情感分類任務(wù)中的有效性。分別從兩方面對比本文提出的方法作出了驗證：一是通過文檔級別的文本分類任務(wù)的準確率對比，驗證了基于用戶和產(chǎn)品信息的模型有效性；二是通過對比不同的用戶和產(chǎn)品信息初始化方法，驗證了本文引入的SVD方法有效性。

4.1 實驗數(shù)據(jù)及模型實現(xiàn)

實驗數(shù)據(jù)來自于：IMDB、Yelp2013、Yelp2014[16]。IMDB是用戶對電影的評分數(shù)據(jù)，Yelp2013和Yelp2014是用戶對商家的評分數(shù)據(jù)。具體統(tǒng)計信息如表2所示。實驗的評價標準有分類準確率（Accuracy）和平方根誤差（RMSE），本文的所有實驗均在如表3所示的實驗環(huán)境中完成。

表2 IMDB，Yelp2013和Yelp2014數(shù)據(jù)集的統(tǒng)計信息

表3 實驗環(huán)境及配置

（1）數(shù)據(jù)預(yù)處理：原始文本數(shù)據(jù)使用斯坦福CoreNLP工具進行分詞處理得到訓(xùn)練樣本，另外，數(shù)據(jù)按照8/1/1得到訓(xùn)練數(shù)據(jù)集/驗證數(shù)據(jù)集/測試數(shù)據(jù)集。實驗中超參數(shù)通過驗證數(shù)據(jù)集調(diào)整，模型分類準確率和平方根誤差通過測試集得到。

（2）詞向量訓(xùn)練：本文使用word2vector工具，結(jié)合相應(yīng)的實驗數(shù)據(jù)作為語料，得到詞向量，詞向量的維度為200，不參與模型的訓(xùn)練。根據(jù)文獻[30]的研究，語料的選擇，是生成好的詞向量的關(guān)鍵，因此本文利用相應(yīng)的實驗數(shù)據(jù)（IMDB，Yelp）作為語料，能得到更準確的語義信息。

（3）層次BGRU模型的實現(xiàn)：利用tensorflow 0.11.0的RNN模塊實現(xiàn)了基本的GRU單元，輸出的語義特征維度為50，在此基礎(chǔ)上搭建了層次結(jié)構(gòu)的雙向GRU神經(jīng)網(wǎng)絡(luò)模型，輸出的語義特征維度為100。使用隨機梯度下降的方法更新神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)，相應(yīng)的學(xué)習率設(shè)為0.01。

（4）層次BGRU模型的訓(xùn)練：基本的GRU單元輸出的語義特征維度為50，雙向GRU神經(jīng)網(wǎng)絡(luò)模型輸出的語義特征維度為100，使用隨機梯度下降的方法更新神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)，相應(yīng)的學(xué)習率設(shè)為0.01。

（5）訓(xùn)練過程數(shù)據(jù)序列化：訓(xùn)練過程中的中間數(shù)據(jù)通過tensorflow 0.11.0的summary模塊序列化，最終通過Excel工具得到如圖5中所示的曲線對比圖。

4.2 實驗對比

本文選取了一些方法作為對比實驗：

（1）SVM：根據(jù)文本和情感詞典設(shè)計特征，然后訓(xùn)練SVM分類器得到相應(yīng)的準確率和平方根誤差值。

（2）Paragraph Vector：處理文檔級別的情感分類的利用神經(jīng)網(wǎng)絡(luò)模型的經(jīng)典方法。

（3）UPA+LSTM：陳慧敏等人[18]實現(xiàn)的層次LSTM結(jié)合User和product Attention的方法，也是本文的主要對比文獻。

（4）UPA+GRU：為了驗證標準GRU模型的有效性，用GRU模型代替實驗3中的LSTM模型。

（5）SVD+GRU：為了驗證雙向GRU模型的有效性。

（6）SVD+BGRU模型：本文提出的模型。

4.3 實驗結(jié)果與分析

所有實驗結(jié)果如表4所示，從實驗結(jié)果中可以看出：

（1）用戶和產(chǎn)品信息在情感分類中的有效性。

從實驗1、2中采用的是傳統(tǒng)的機器學(xué)習模型、SVM和Paragraph Vector，實驗3、4、5、6采用的是基于用戶和產(chǎn)品的神經(jīng)網(wǎng)絡(luò)模型，從實驗結(jié)果對比中可以看出，因為引入了更多的語義信息，在分類準確率方面后者有了10%提升，驗證了用戶和產(chǎn)品信息在文本情感分類中的重要性。同時，本文提出的基于SVD的方法得到的用戶和產(chǎn)品信息更加準確，在所有實驗數(shù)據(jù)中達到最高分類準確率。

表4 實驗結(jié)果比較表

（2）基于SVD方法的有效性。

從三個不同實驗數(shù)據(jù)的結(jié)果可以看出，基于SVD的方法在IMDB數(shù)據(jù)中取得的準確率提升最大，接近4%，而Yelp2013和Yelp2014數(shù)據(jù)的準確率提升只有2%左右，原因是IMDB數(shù)據(jù)的用戶和產(chǎn)品的信息更加豐富。相應(yīng)的實驗數(shù)據(jù)統(tǒng)計信息如表2所示，IMDB數(shù)據(jù)中，每個用戶平均的文檔數(shù)是64.82，而Yelp2013和Yelp2014的平均文檔數(shù)分別是48.42和47.87。這一結(jié)果同時也驗證了基于SVD方法得到的用戶和產(chǎn)品信息在文本情感分類的有效性。

（3）雙向GRU模型的有效性。

對比實驗3和實驗4的結(jié)果，可以看出，GRU模型在文本特征抽取中要略優(yōu)于LSTM模型，準確率普遍提升1%，且GRU模型結(jié)構(gòu)更簡單，模型參數(shù)更少，可以降低整體的模型效率。同時，對比實驗5和實驗6的結(jié)果，可以看出，相比于標準GRU模型，雙向的GRU模型在最終模型分類準確率上有2%的提高。驗證了雙向GRU模型在文本上下文語義結(jié)合中的有效性。

4.4 實驗迭代次數(shù)的驗證

為了驗證SVD在減少模型參數(shù)，提高模型訓(xùn)練速度的有效性，以IMDB為實驗數(shù)據(jù)，在SVD+BGRU模型的基礎(chǔ)上，不改變其他參數(shù)，本文做了相應(yīng)的對比實驗，實驗1采用隨機初始化用戶和產(chǎn)品信息，并參與到模型的訓(xùn)練過程中。實驗2使用SVD得到用戶和產(chǎn)品的信息作為先驗信息，不參與到模型的訓(xùn)練過程中，具體的實驗結(jié)果見圖5。

圖5 IMDB實驗中迭代次數(shù)與分類準確率的關(guān)系

從分類準確率與迭代次數(shù)的曲線圖可以看出，本文提出的基于SVD方法產(chǎn)生的用戶和產(chǎn)品的先驗信息在迭代開始時就取得了接近最高的準確率，驗證了SVD方法得到的用戶和產(chǎn)品信息的準確性，同時，基于SVD初始化的方法在較少的迭代次數(shù)下就達到了最優(yōu)，驗證了SVD方法在提高模型訓(xùn)練速度的有效性。

5 結(jié)束語

本文提出了一種基于奇異值分解（SVD）來得到文本中用戶和產(chǎn)品先驗信息作為神經(jīng)網(wǎng)絡(luò)Attention信息的方法，同時引入雙向GRU模型作為層次神經(jīng)網(wǎng)絡(luò)中的語義組合模型。在用戶和產(chǎn)品數(shù)據(jù)足夠的情況下，相較其他方法，SVD能得到更加準確的用戶和產(chǎn)品語義信息，在保證模型分類準確同時，減少了模型訓(xùn)練中參數(shù)的數(shù)量，提高模型的訓(xùn)練效率。在層次神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)基礎(chǔ)上，BGRU模型代替常用的LSTM，得到了更加豐富的上下文信息，作為文本情感分類器的特征。提高了最終分類器的效果。另外，如何在用戶和產(chǎn)品數(shù)據(jù)不足，特別是新用戶或者新產(chǎn)品的情況下，保證模型的分類效果值得進一步的研究。

參考文獻：

[1]趙妍妍，秦兵，劉挺，等.文本情感分析[J].軟件學(xué)報，2010，21（8）：1834-1848.

[2]李婷婷，姬東鴻.基于SVM和CRF多特征組合的微博情感分析[J].計算機應(yīng)用研究，2015，32（4）：978-981.

[3]Ding X，Liu B，Yu P S.A holistic lexicon-based approach to opinion mining[C]//International Conference on Web Search and Data Mining，2008：231-240.

[4]Taboada M，Brooke J，Tofiloski M，et al.Lexicon-based methods for sentiment analysis[J].Computational Linguistics，2011，37（2）：267-307.

[5]Mohammad S M，Kiritchenko S，Zhu X.NRC-Canada：Building the state-of-the-art in sentiment analysis of tweets[J].Computer Science，2013.

[6]Lecun Y，Bengio Y，Hinton G.Deep learning[J].Nature，2015，521（7553）.

[7]Mikolov T，Sutskever I，Chen K，et al.Distributed representations of words and phrases and their compositionality[J].Advances in Neural Information Processing Systems，2013，26：3111-3119.

[8]Collobert R，Weston J，Karlen M，et al.Natural language processing（almost） from scratch[J].Journal of Machine Learning Research，2011，12（1）：2493-2537.

[9]Kim Y.Convolutional neural networks for sentence classification[J].arXiv preprint arXiv：1408.5882，2014.

[10]Kalchbrenner N，Grefenstette E，Blunsom P.A convolutional neural network for modelling sentences[J].Eprint Arxiv，2014.

[11]Socher R，Huval B，Manning C D，et al.Semantic compositionality through recursive matrix-vector spaces[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning，2012：1201-1211.

[12]Socher R，Perelygin A，Wu J Y，et al.Recursive deep models for semantic compositionality over a sentiment treebank[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing（EMNLP），2013.

[13]Wang X，Liu Y，Sun C，et al.Predicting polarities of tweets by composing word embeddings with long shortterm memory[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing，2015：1343-1353.

[14]Teng Z，Vo D T，Zhang Y.Context-sensitive lexicon features for neural sentiment analysis[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing，2016：1629-1638.

[15]Gao W，Kaji N，Yoshinaga N.Collective sentiment classification based on user leniency and product popularity[J].Journal of Natural Language Processing，2014，21（3）：541-561.

[16]Tang D，Qin B，Liu T.Learning semantic representations of users and products for document level sentiment classification[C]//Meeting of the Association for Computational Linguistics and the International Joint Conference on Natural Language Processing，2015：1014-1023.

[17]Tang D，Qin B，Liu T，et al.User modeling with neural network forreview rating prediction[C]//International Conference on Artificial Intelligence，2015：1340-1346.

[18]Chen H，Sun M，Tu C，et al.Neural sentiment classification with user and product attention[C]//Proceedings of EMNLP，2016.

[19]Chen T，Xu R，He Y，et al.Learning user and product distributed representations using a sequence model for sentiment analysis[J].IEEE Computational Intelligence Magazine，2016，11（3）：34-44.

[20]Pennington J，Socher R，Manning C.Glove：Global vectors for word representation[C]//Conference on Empirical Methods in Natural Language Processing，2014：1532-1543.

[21]Mou L，Peng H，Li G，et al.Discriminative neural sentence modeling by tree-based convolution[J].arXiv preprint arXiv：1504.01106，2015.

[22]Tai K S，Socher R，Manning C D.Improved semantic representations from tree-structured long short-term memory networks[J].Computer Science，2015.

[23]Yang Z，Yang D，Dyer C，et al.Hierarchical attention networks for document classification[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies，2016.

[24]胡新辰.基于LSTM的語義關(guān)系分類研究[D].哈爾濱：哈爾濱工業(yè)大學(xué)，2015.

[25]Mnih V，Heess N，Graves A，et al.Recurrent models of visual attention[J].Computer Science，2014，3：2204-2212.

[26]Bahdanau D，Cho K，Bengio Y.Neural machine translation by jointly learning to align and translate[J].arXiv preprint arXiv：1409.0473，2014.

[27]張沖.基于Attention-Based LSTM模型的文本分類技術(shù)的研究[D].南京：南京大學(xué)，2016.

[28]Chung J，Gulcehre C，Cho K H，et al.Empirical evaluation of gated recurrent neural networks on sequence modeling[J].Eprint Arxiv，2014.

[29]Tang D，Qin B，Liu T.Document modeling with gated recurrent neural network for sentiment classification[C]//Conference on Empirical Methods in Natural Language Processing，2015：1422-1432.

[30]來斯惟.基于神經(jīng)網(wǎng)絡(luò)的詞和文檔語義向量表示方法研究[D].北京：中國科學(xué)院研究生院，2016.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放