史振杰,董兆偉,龐超逸,張百靈,孫立輝
(河北經(jīng)貿(mào)大學 信息技術(shù)學院,河北 石家莊 050061)
近年來,電子商務發(fā)展十分迅速,同時,越來越多的評價形成了巨量的文本數(shù)據(jù),這些數(shù)據(jù)包含大量的隱含信息,商家可以根據(jù)這些信息來改善產(chǎn)品和經(jīng)營模式,而消費者可以根據(jù)這些信息選擇自己想要的產(chǎn)品。但是,僅僅靠人工是無法處理這樣大量的信息,因此,利用計算機來幫助人們進行匯總、處理與挖掘這些信息,所以文本情感分析技術(shù)出現(xiàn)并成為人工智能領(lǐng)域的一個熱點問題。
文本情感分析在許多的領(lǐng)域都有涉及,應用范圍十分廣泛[1-4],例如,心理學、智能機器人、智能司法等。英文的情感分析研究的比較成熟并且取得的不錯的研究成果,而國內(nèi)的研究比較落后。在情感分析領(lǐng)域,國外的研究比國內(nèi)較早,對于英文的情感分析研究較為成熟,對于中文的研究還處于起步階段,但是兩者的研究方法相似,主要都是分為三種方式,基于情感詞典的方法,基于機器學習以及基于深度學習的方法。
基于情感詞典的分析方法主要是根據(jù)是否包含詞典中的情感詞語及情感強度,再根據(jù)公式評價情感傾向[5]。Bingliu等人[6]構(gòu)建了基于顧客評價的詞典,除了一般的詞語外,還包含了拼寫錯誤、語法變形、標記符號等,該詞典在新社交媒體方面處理情感分析時具有很大的幫助。Saif[7]將語義信息引入到情歌分析中,并通過實驗發(fā)現(xiàn)比對情歌主題進行分類的方法效果好。Kim[8]等人使用同義詞,近義詞等方式構(gòu)建詞典,并通過它判斷詞的情感傾向。閔錦和朱嫣嵐[9]等人使用Hownat詞典進行分析再次基礎(chǔ)上進行了創(chuàng)新,提出兩種新的計算方式,并證明具有很高的實踐價值。朱艷輝[10]等人建立了一個新的詞典,用新詞典結(jié)合傳統(tǒng)TF-IDF方法進行優(yōu)化。王勇[11-12]等人在基礎(chǔ)情感詞典的基礎(chǔ)上,擴展了情感詞典,取得了很好的效果。使用情感詞典進行文本分析雖然效率較高,但是分析的準確程度與情感詞典的好壞有很大的關(guān)聯(lián),因此模型的魯棒性不強。
基于機器學習的方法原理是采用有監(jiān)督數(shù)據(jù)的方法進行學習,進而完成情感分析。Pang[13]等人最開始將機器學習方法引入到情感分析中去,采用機器學習實現(xiàn)了對電影影評的分類,結(jié)果表明SVM的分類效果最好,樸素貝葉斯進行分類效果最差。Jain[14]等人使用機器學習算法,對Twitter評論進行情感分析,構(gòu)建了一個基于貝葉斯和決策樹的情感分析框架,結(jié)果表明不僅準確率高并且速度快。Neethu[15]等人在某一特殊領(lǐng)域采用機器學習的方法進行情感分析,識別出這一領(lǐng)域中對于情感分析的作用,取得不錯的效果。王剛[16]等人將集成學習與SVM相結(jié)合,提高了情感分析的準確度。李響[17]等人針對SVM模型,加入了三種對維吾爾語言學習的三種策略,在提高準確度的情況下還能夠減少工作量,省時省力。一般情況下,采用機器學習的方法進行情感分析效果比單純采用情感詞典的方法好,但是需要使用大的語料庫,因此實際上很難達到滿意的效果。
隨著計算機技術(shù)的提升,深度學習廣泛用于文本的處理,深度學習可以經(jīng)過多層次的學習,自動學習到數(shù)據(jù)的本質(zhì)特征,能夠在預測與分類任務中獲得較高的準確率。Denil[18]等人提出一種多層次的CNN模型來抓取文本中的特征,通過構(gòu)建多層次的結(jié)構(gòu)來強化文本中對于關(guān)鍵信息的抓取。Kalchbrenner[19]將靜態(tài)卷積網(wǎng)與動態(tài)卷積網(wǎng)相結(jié)合,對于解決不同文本的不同長度具有較好的效果。Zhou[20]等人提出了將CNN與RNN的特點相結(jié)合,先對文本用CNN進行分布特征的提取,再用RNN進行序列特征的提取,最后用于分類。李然[21]使用神經(jīng)網(wǎng)絡語言模型進行文本情感分析,經(jīng)過自適應調(diào)整,提取更深層次的語義信息,在大規(guī)模的商品評論數(shù)據(jù)集上表明了深度學習的分類性能更好。胡朝舉[22]等人提出了一種將CNN與LSTM相結(jié)合的方法,不僅能采用CNN捕捉句子的局部特征,而且能夠較好的獲取句子的上下文信息,實驗獲得了較高的F值。在以上的研究中,使用深度學習方法在不同領(lǐng)域都有很好的效果,但是都需要大量的語料進行學習,語料不足時很難達到滿意的效果。
本文主要對以下內(nèi)容進行研究論述:
1) 利用Word2vec對評論信息的句子進行向量化表達,然后采用雙向LSTM網(wǎng)絡對文本信息進行分析,對比單向LSTM網(wǎng)絡,能夠充分挖掘句子中上下文之間的信息。
2) 在BiLSTM網(wǎng)絡的基礎(chǔ)上,加入注意力機制Attention,通過注意力機制的使用對句子中不同特征分配權(quán)重,對于句子中傾向于用戶情感的特征信息進行關(guān)注,有效改善識別效率,減少數(shù)據(jù)中噪聲帶來的不利影響,在京東某手機評論數(shù)據(jù)集中,實驗表明融合注意力機制與包含上下文信息的Bilstm模型具有良好表現(xiàn)。
長短期記憶網(wǎng)絡,即LSTM,它屬于RNN的變種,是一種特殊的改進,能夠解決RNN梯度的問題。在循環(huán)神經(jīng)網(wǎng)絡中,可以達到使用上文信息來用于輸入與輸出序列之間的映射,如圖1所示。它的任務就是接受x并且輸出h,并且內(nèi)部A允許循環(huán)。但是,在標準的循環(huán)神經(jīng)網(wǎng)絡中,給定輸入對隱層及網(wǎng)絡輸出的影響,當它以網(wǎng)絡的循環(huán)連接,會出現(xiàn)梯度爆炸或衰減的問題。
圖1 LSTM內(nèi)部結(jié)構(gòu)圖
由于循環(huán)神經(jīng)網(wǎng)絡的不足,長短時記憶模型被提出。LSTM網(wǎng)絡是由多個內(nèi)存單元連接而成,每個單元包括輸入門、輸出門和遺忘門,并且三個門都是用可微分的激活函數(shù),門結(jié)構(gòu)可以達到不間斷對數(shù)據(jù)進行讀取、寫入、復制的作用。從圖1可以看出,在前向傳播的過程中,除了包含隱藏狀態(tài),還包含一個細胞狀態(tài)。
遺忘門能夠決定信息的忘記,在細胞中,有一定的概率選擇是否遺忘上一層的隱藏細胞狀態(tài),遺忘上一層細胞狀態(tài)的概率用ft表示,上一個時刻細胞的輸出為ht-1,當前細胞的輸入用xt,W為權(quán)重,b為偏置,δ為激活函數(shù),如下式所示,
ft=σ(Wf·[ht-1,xt]+bf)
(1)
輸入門負責當前序列位置的輸入,為輸出門細胞的狀態(tài)提供控制,I與C對細胞狀態(tài)起作用,如下式所示,
it=σ(Wi·[ht-1,xt]+bi)
(2)
在輸出門之前,將遺忘門和輸入門得到的結(jié)果對當前單元進行處理,如下式所示:
(3)
當隱藏細胞狀態(tài)進行更新后,可以由輸出門進行輸出,計算公式如下:
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanh(Ct)
(4)
最后,輸出門決定下個隱藏狀態(tài)的值,控制細胞狀態(tài)的輸出。通過激活函數(shù)進行相應的數(shù)據(jù)傳遞得到新的狀態(tài),再用Tanh進行激活確定應該輸出的信息。
圖2 注意力機制結(jié)構(gòu)圖
注意力機制為人們在RNN及CNN之后的解決問題中提供了新思路[23]。注意力,通俗理解,人類在觀察環(huán)境時,大腦往往只關(guān)注某幾個特別重要的部分,從而構(gòu)建自己的印象。而Attention Mechanism也是如此,如圖2所示,將輸入信息分為查詢值與鍵值,對于不同的鍵值分配不同的權(quán)重,然后再結(jié)合起來。
通用注意力機制需要三個二維矩陣Q,K,V,其中,K代表關(guān)鍵字,Q代表查詢值,V代表權(quán)重值。如圖3所示,這些二位矩陣的維度分別代表了句子的最大長度以及每一個句子對應的向量長度[24]。一般來說,K與V都是編碼器的輸出,也就代表了它們是一樣的,而Q是解碼器的隱狀態(tài),通過Q與K的每個時序的對應點積進行softmax即可得到兩個時序序列的相似性權(quán)重。根據(jù)這種相似性的大小,從而對V矩陣中的每一行向量進行放大或縮小,然后將V的所有時序序列的表示向量進行加權(quán)求和??梢岳斫鉃?,對于Q中的每一個序列,V中和該序列相似性高的會獲得較高的概率,相似性低的獲得較小的概率,然后加權(quán)求和新的序列Q的表示。這些權(quán)重就被稱為注意力權(quán)重。也就是說,注意力機制中權(quán)重的大小就是一個序列對與他序列中的字符更加的相似或者不相似。
圖3 Encoder-Decoder機制計算圖
在自然語言處理,尤其是機器翻譯的領(lǐng)域內(nèi),注意力機制使用廣泛,隨后在其他自然語言處理任務上也均有很好表現(xiàn)。注意力機制可以說是從大量特征中有篩選出重要的內(nèi)容,并且聚焦在這些特征上,同時,對于不重要的內(nèi)容進行遠離。
在電商的評論信息中,存在許多對于商品和服務的情感詞語,引入注意力機制可以使模型對文本信息中的情感特征進行捕捉,給予這些特征更多的注意,因此能夠提高情感分類的效果。
本文搭建的BiLSTM-Attention情感分析模型主要包括輸入層(Inputer layer),詞嵌入層(Embedding layer),BiLSTM層,注意力層(Attention layer),輸出層(Output layer)5個部分,整體結(jié)構(gòu)如圖4所示。
圖4 BiLSTM-Attention結(jié)構(gòu)圖
圖5 Attention-BiLSTM層結(jié)構(gòu)圖
詞嵌入是作為自然語言處理中必不可少的一部分。能夠?qū)⒕渥又械乃行畔⑶度氲礁呔S空間數(shù)據(jù),可以作為單獨的模型進行詞向量的嵌入學習,也可以作為詞嵌入模型的加載層,還可以作為訓練的一部分,與模型一起進行學習。在本次實驗中,詞嵌入層作為加載詞向量模型,將文本數(shù)據(jù)對應映射到向量空間中去,完成將詞語轉(zhuǎn)化為固定尺寸的向量。
模型的中間一層即為BiLSTM+Attention層。該層在模型中分為兩個部分,第一部分由雙向BiLSTM神經(jīng)網(wǎng)絡進行特征提取,第二部分需要注意力機制進行特征的更深一步學習,如圖5所示。
模型BiLSTM有2個隱含層,組成了雙層LSTM模型,也就是兩個LSTM進行疊加,能夠更好的抽取特征的表現(xiàn)。在訓練模型時,設(shè)置正向傳播的dropout取值為0.5,反向傳播的dropout取值為0.5。根據(jù)長短期記憶網(wǎng)絡的特點,得到LSTM雙向信息,然后將其前后拼接,在與Attention的權(quán)重矩陣相結(jié)合得到有用的特征。
對于給定的n維輸入(x1,x2,…,xn),時間為t,BiLSTM的輸出為ht,計算流程如下式所示:
(5)
其中,權(quán)重矩陣為W,偏置向量為b,σ為激活函數(shù),ht的兩種代表正向與反向BiLSTM的輸出。
將它們的輸出進行拼接,輸入到注意力機制中,對隱含層的不同時間的輸出進行不同的權(quán)重分配,不同的權(quán)重代表了不同的注意程度,其中,注意力權(quán)重的構(gòu)建方式如下,a為學習函數(shù),由BiLSTM層的狀態(tài)序列ht經(jīng)過加權(quán)處理,得出注意力權(quán)值α,然后對所有序列中的結(jié)點隱含向量與注意力權(quán)值進行乘積,得到最終的特征向量s。
et=a(ht)
(6)
輸出層由全連接層分類器進行數(shù)據(jù)的分類,輸出層的計算公式如下式所示:
O=softmax(Wsh+bs)
(7)
在數(shù)據(jù)集中,輸出層進行分類,經(jīng)過分類器處理,可以得到屬于哪一類情感的概率,如下式所示:
(8)
使用交叉熵損失函數(shù)作為評價函數(shù),如下式所示:
(9)
其中,yti指代t時刻實際標簽中的第i個值,preti指代t時刻預測的標簽中的第i個值。
實驗環(huán)境配置如表1所示。
表1 實驗環(huán)境配置表
在京東某手機評論數(shù)據(jù)集中上進行實驗,數(shù)據(jù)集中包含了8000條訓練數(shù)據(jù),測試數(shù)據(jù)為1600條。
分別采取幾種不同的模型進行實驗,分析最后的結(jié)果。對于自然語言處理中情感分析任務,不僅要看最終的準確率,還應該以F值作為最終的評價指標,結(jié)果如表2。
表2 實驗結(jié)果表
在RNN中,雙向LSTM神經(jīng)網(wǎng)絡比單向LSTM神經(jīng)網(wǎng)絡的準確度與F值都高。這說明了,雙向的LSTM結(jié)構(gòu)在文本情感分析任務中相較于單向的LSTM具有更好的效果,雙向的結(jié)構(gòu)在時序處理過程中,不僅能夠獲取句子前面的信息,也能夠獲取句子后面的信息,因此,在電商評論數(shù)據(jù)集中的BiLSTM表現(xiàn)好于LSTM。
當加入注意力機制時,Attention-BiLSTM在準確率與F值均高于BiLSTM模型。這說明了加入注意力機制的BiLSTM可以捕獲句子中對于情感表達更加重要的詞語,Attention機制在BiLSTM網(wǎng)絡的使用能夠給予重要信息更高的注意,因此,BiLSTM-Attention的在本實驗中的表現(xiàn)好于BiLSTM。
近幾年來,隨著互聯(lián)網(wǎng)和計算機技術(shù)的發(fā)展,網(wǎng)上購物已經(jīng)融入了人們的日常生活,因此,在網(wǎng)上出現(xiàn)的評論文本中挖掘有價值的信息也越來越受到人們的重視。為了更好的對電商評論信息進行挖掘,本文提出了一種融合Attention與BiLSTM的網(wǎng)絡模型,對某手機評論文本數(shù)據(jù)進行情感分析,挖掘消費者的情緒,更加有效的對商家進行優(yōu)化,增強競爭能力,也能給消費者決定是否購買提供參考。
文本先通過Word2Vec得到預訓練詞向量,將詞向量輸入到雙向LSTM模型中去,利用注意力機制篩選出對文本情感分析重要的特征,分配較高的權(quán)重,然后送入到全連接中在進行情感極性分類。在某手機評論數(shù)據(jù)中,雖然相較于其他幾種傳統(tǒng)模型有一些提升,但是訓練時間也相對較長,并且模型并不能實現(xiàn)同時對雙向語義進行處理。因此,針對這些問題,還需要不斷的研究和探索。