趙賽仙 張元琴 周順江 覃勇 孫大旭 龔維印
關鍵詞:CBiLSTM;影評;情感分析
近年來,隨著多媒體技術的飛速發(fā)展和智能設備的普及,每天都會產(chǎn)生源源不斷的互聯(lián)網(wǎng)數(shù)據(jù),很多用戶會在社交平臺上發(fā)布大量的影視作品評論[1-2]。比如購物評價、QQ音樂、短視頻評論等。許多帶有用戶情感的文本將作為研究用戶情感、立場和觀點的依據(jù)?,F(xiàn)在很多用戶一邊觀看一邊進行綜合評分,一些用戶在影視下方發(fā)出的評論常常被忽略,這種現(xiàn)象達不到一個很好的參考價值。影視投資人不僅要知道用戶評價的情感走向,還應當將用戶的情感變化和諸多影響用戶評價的因素考慮到其中[3]。
情感分析旨在對帶有情感色彩的主觀性文本進行分析、處理、歸納、推理的過程,其常應用于消費決策、輿情分析、電子商務等領域,具有較高的商業(yè)應用價值[4]。本文由情感分類算法為切入點介紹了當前流行的情感分析方法,進而提出了基于CsBiLSTM的情感分類方法。采用情感分析方法,可以通過主觀描述來自動判斷自然語言文本的積極和消極的情緒傾向,并得出相應的結(jié)論。
1 相關工作
1.1 數(shù)據(jù)預處理
首先通過爬蟲技術獲取實驗數(shù)據(jù);然后獲取數(shù)據(jù)中的星級和具體的評論內(nèi)容,將三星級的內(nèi)容去除,將一、二星級標注為-1,四、五星級標注為1作為實驗數(shù)據(jù)的標簽;最后利用正則表達式去除評論中存在的西文字體,再采用Jieba分詞工具進行分詞處理。
1.2 詞嵌入向量
文本信息無法直接輸入進行特征提取,需要將文本轉(zhuǎn)換為具體的向量進行表示,從而方便計算機的處理[5]。早期使用的one-hot編碼方式中,詞與詞之間相互獨立,忽略了詞與詞之間的邏輯性以及無法區(qū)分詞的相似性。為了較好地克服傳統(tǒng)詞向量存的不足,本文使用分布式進行連續(xù)性表示,將文本中的詞從高維空間映射到低維空間。本文詞向量使用Word2Vec訓練詞向量。
開源詞向量工具包Word2Vec于2013被Google推出[6]。Mikolov團隊因神經(jīng)網(wǎng)絡模型采用兩個非線性變換,網(wǎng)絡參數(shù)較多,訓練速度延遲且不利用于大語料的特點而簡化了它,并實現(xiàn)了Word2Vec詞向量模型。它具有簡易、卓效的優(yōu)點,從而十分適用于從龐大及巨型語料中獲取高精度的詞向量表示。Word2Vec 主要包含CBOW 和Skip-gram 組成[7],具體如圖1所示。
CBOW模型用一個隱層預測中心詞t,即通過中心詞附近的n 個詞預測中心詞t的概率。如“我”“很”“喜歡”“這部”“電影”,就是通過周圍詞“我”“很”“這部”“電影”預測中心詞“喜歡”;Skip-gram模型用一個隱含層預測周圍詞,即通過中心詞t預測周圍n 個詞的概率,如“這部”“電影”“演員”“演技”“不行”,就是通過中心詞“演員”預測周圍詞“這部”“電影”“演技”“不行”。本文使用Skip-gram模型訓練維度為50的詞向量。
2 模型介紹
本文的實驗模型包括輸入層、嵌入層、卷積神經(jīng)網(wǎng)絡、雙向長短期記憶網(wǎng)絡、K-最近鄰,具體的模型如圖2所示。
2.1 卷積神經(jīng)網(wǎng)絡
卷積神經(jīng)網(wǎng)絡主要用于圖像識別、語音識別、自然語言處理等領域[8]。Kim于2014年首次將卷積神經(jīng)網(wǎng)絡用于自然語言處理[9]。卷積神經(jīng)網(wǎng)絡(Convolu?tional Neural Network,CNN) 是具有深度結(jié)構的前饋神經(jīng)網(wǎng)絡,主要包括卷積計算,其網(wǎng)絡模型基本結(jié)構有輸入層、卷積層、池化層、全連接層和輸出層[10]。CNN模型的架構圖如圖3所示。
輸入層:在圖像處理領域,為0~255之間具體的像素。在本文中將句子或者文本表示成向量矩陣。
卷積層:通過局部連接和權值共享完成卷積運算。在深度神經(jīng)網(wǎng)絡中,卷積層中每個單元都有一個獨立的權值,因此需要對整個網(wǎng)絡進行控制以實現(xiàn)最優(yōu)的網(wǎng)絡結(jié)構。本文通過不同尺寸的卷積核進行卷積,提取輸入數(shù)據(jù)中深層次的特征。
池化層:主要對卷積層輸出的結(jié)果進一步提取特征,在保留最大特征的同時,降低特征的維度。
全連接層:主要根據(jù)概率值對所提取的特征進行分類,然后輸出最終的情感分析結(jié)果。
2.2 LSTM 和BiLSTM
LSTM 是循環(huán)神經(jīng)網(wǎng)絡的變形。循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN) 對具有序列特性的數(shù)據(jù)非常有效,能夠挖掘數(shù)據(jù)中的時序信息以及語義信息,能夠利用之前的信息影響后面信息的輸出,但是RNN 存在無法記憶長距離的信息、梯度消失等問題[11]。為解決以上問題,在RNN基礎上添加了“門控裝置”,即輸入門、遺忘門和輸出門,形成LSTM。
為進一步充分利用上下文的內(nèi)容,將具有正向序列學習特征的LSTM模型進行變形,通過正反向序列提取上下文信息,綜合考慮上下文內(nèi)容,得到雙向長短期記憶網(wǎng)絡模型BiLSTM,由此判斷每個樣本評論的情感傾向[12],具體如圖4所示。
BiLSTM模型具體的學習流程如下:
1) xt - 1,xt,xt + 1 是輸入的具體的詞,經(jīng)過詞嵌入將輸入的詞轉(zhuǎn)換為固定維度的詞向量。
2) 輸入的詞經(jīng)過詞嵌入后轉(zhuǎn)換為固定維度的詞向量,然后輸入BiLSTM模型,經(jīng)過正向傳播和反向傳播訓練得到詞向量,將正向傳播獲取的特征和反向傳播獲取的特征進行融合,有效地提取數(shù)據(jù)的特征。
3) 將獲取的數(shù)據(jù)特征通過分類器進行預測分類,判斷影評數(shù)據(jù)的情感傾向,即該影評的情感是積極還是消極。
3 實驗方案和結(jié)果
3.1 實驗數(shù)據(jù)
本文通過網(wǎng)絡爬蟲技術獲取豆瓣網(wǎng)站共計50部電影影評作為實驗數(shù)據(jù),經(jīng)過處理共獲取影評數(shù)據(jù)共3萬條,其中訓練數(shù)據(jù)2.4萬條,測試數(shù)據(jù)0.6萬條。按照星級將實驗數(shù)據(jù)歸為積極和消極兩類,積極類用1表示,消極類用-1表示。
3.2 評價指標
本實驗評價分類結(jié)果的好壞用準確率(Accu?racy) 、精確率、召回率和F1 作為指標。Positive表示積極評論,Negative表示消極評論,影評分析混淆矩陣如表1所示。
其中,準確率表示影評分析中被分對的樣本與所有樣本的數(shù)的比;精確率表示影評分析中被識別為積極類的樣本中,確實為積極類別的比例;召回率表示在所有積極類別樣本中,被正確識別為積極類別的比例;F1表示通過精確率和召回率對影評的綜合分析。
3.3 實驗設置
本實驗在Windows10上,使用Python編程語言,基于Anaconda環(huán)境,利用深度學習框架TensorFlow2.0完成整個實驗代買的編寫。通過Word2Vec中skipgram訓練維度為50的詞向量進行詞嵌入。在CsBiL?STM中,具體的實驗參數(shù)設置如下:首先使用卷積層中使用32個卷積核,尺寸大小為2,3,4的窗口進行卷積;其次使用窗口大小為3,移動步長為1的最大池化方式進行池化;再其次將多尺寸卷積核獲取的特征進行融合;最后將融合的特征使用雙向LSTM進一步提取影評數(shù)據(jù)特征。
3.4 實驗結(jié)果及分析
為了證明本實驗模型的有效性,將CsBiLSTM模型與CNN、LSTM、BiLSTM進行對比實驗,輸出層使用sigmoid進行分析,通過準確率進行評價,實驗結(jié)果如表2所示。
通過CsBiLSTM模型提取影評數(shù)據(jù)特征,輸出層使用K-最近鄰算法進行影評分析,為保證實驗結(jié)果的有效性,將實驗數(shù)據(jù)進行5折交叉驗證,同時通過網(wǎng)格搜索尋找最佳參數(shù),并與CNN、LSTM、BiLSTM進行對比,最后通過準確率、精確率、召回率和F1 進行評價,實驗結(jié)果如表3所示。
從表2和表3可以分析得出,CsBiLSTM融合模型在特征提取方面優(yōu)于單一的CNN、LSTM、BiLSTM。輸出層使用sigmoid和K-最近鄰進行情感分析,其K-最近鄰整體優(yōu)于sigmoid。同時也能得到BiLSTM能夠充分利用前向和后向的特征進行分類,充分體現(xiàn)出其網(wǎng)絡在時序信息方面具有的獨特性。
4 結(jié)束語
融合多尺寸CNN 和BiLSTM 得到的模型CsBiL?STM模型用于中文影評分析優(yōu)于單一的網(wǎng)絡模型,如CNN、LSTM、BiLSTM;同時也能夠解決CNN無法充分利用上下文信息的問題。但是在實驗的過程中,也體現(xiàn)出實驗存在的問題:第一,模型訓練時間長。盡管單一模型在準確率上低于CsBiLSTM,但是在消耗的時間上優(yōu)于CsBiLSTM;第二,數(shù)據(jù)量偏少。實驗過程中使用的數(shù)據(jù)量少,模型訓練過程中存在學習不夠充分。在今后的工作中,除了解決以上兩個問題外,還需進一步加強算法模型優(yōu)化以及數(shù)據(jù)預處理的研究。