高統(tǒng)超 張云華
要:針對方面級情感分類算法在中文領(lǐng)域商品評論中性能不佳的問題,從實際應(yīng)用場景出發(fā),基于cw2vec模型并結(jié)合BiLSTM模型,進(jìn)行中文商品評論方面級情感分類。通過對數(shù)據(jù)進(jìn)行預(yù)處理,訓(xùn)練中文詞向量,提取評論語句文字筆畫信息特征;然后對評論語料構(gòu)建基于注意力機制的BiLSTM模型進(jìn)行情感分類,計算注意力向量權(quán)重,利用雙向網(wǎng)絡(luò)結(jié)構(gòu)特點捕捉語義依賴信息。實驗結(jié)果表明,當(dāng)訓(xùn)練語料分布合理時,該方法準(zhǔn)確率達(dá)到83.2%,比Skip-gram模型提高了3.3%。該方法在中文方面級情感分類任務(wù)上能獲取中文語義信息,分類效果更好,有效提高了分類準(zhǔn)確率。
關(guān)鍵詞:情感分類;cw2vec模型;BiLSTM模型;注意力機制
DOI: 10. 11907/rjdk.191 800
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
中圖分類號:TP301
文獻(xiàn)標(biāo)識碼:A
文章編號:1672-7800( 2020)004-0079-05
Sentiment Classification of Chinese Product Reviews
Based on cw2vec and BiLSTM
GAO Tong-chao, ZHANG Yun-hua
(Sch.ool of Inform ation , Zh.e.jiang Sci- Tech UrLiver.sity , Harzgzhou 3 1 00 1 8 . C^ ina )
Abstract: Aiming at the poor performance of aspect level sentiment classification algorithm in Chiiiese comruodity review. based onthe actual application scenario. we combine the BiLSTM ruodel ivith the cw2vec model to classif'y Chinese commodi'y revie,vs. The datais pre-processed. the Chinese word vector is trained. and the feature inforruation of' the corument sentence text is extracted. Then. theBiLSTM model based on the attentionmechanism is constructed to classify the annotation corpus, calculate the weight of the attentionvector. and capture the semantic dependence information hy using the characteristics of' the bidirectional network structure. The experi-mental resulfs show that u-hen the training corpus distribution is reasonable. the accuracy rate of' this method is 83.2% . which is 3.3%higher than that of the Skip-gram model. This method can obtain Chinese senlantic inf'ormation on the Chinese aspect level sentimentclassif'ication task . and the classification effect is better. which effectively improves the classification accuracy .Key Words : sentiruent classification; cw2vec model; BiLSTM model; attention mechanism
O 引言
《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,截至2018年12月,我國網(wǎng)絡(luò)購物用戶數(shù)量是6.10億,網(wǎng)上零售交易額達(dá)到90 065億元,同比增長23.9%[1]。用戶進(jìn)行網(wǎng)絡(luò)購物后給出商品評論,數(shù)量成千上萬,復(fù)雜多樣。對評論語句采用情感分析,能夠幫助商家調(diào)整銷售策略,指導(dǎo)潛在用戶合理選擇商品。情感分析也被稱為意見挖掘、傾向分析,是白然語言處理領(lǐng)域的一個基礎(chǔ)任務(wù)[2]。目前,研究者廣泛認(rèn)同根據(jù)情感極性分類對象的粒度大小,將情感分類分為3個層面:文檔級、句子級、實體與方面級(aspect)[3]。2016年Wang等。[4]利用英文數(shù)據(jù)集SemEval-2014 Task4,提出基于注意力(Attention)機制的LSTM,并在模型的輸入和隱藏層中添加方面詞語義向量,保證方面情感信息獲得更多注意力,使情感分類結(jié)果更加準(zhǔn)確;2018年王新波[5]基于英文數(shù)據(jù)集,引入依存關(guān)系等外部信息解決長距離信息捕獲不充分問題,提高特定方面級情感分類的準(zhǔn)確率,但無法利用中文數(shù)據(jù)集進(jìn)行分類。漢字表意豐富,博大精深,比英文單詞表達(dá)的內(nèi)容更加復(fù)雜,漢字之間的多重組合形成的語義信息比英文單詞更復(fù)雜多樣。由于中英文的差異性,許多英文研究成果無法直接運用于中文語義分析。
以上方法在中文商品數(shù)據(jù)集上還沒有進(jìn)行過有效研究。鑒于此,本文在現(xiàn)有詞向量模型和文本情感分類方法基礎(chǔ)上,利用網(wǎng)絡(luò)爬蟲技術(shù)[6]獲得原始實驗數(shù)據(jù),通過cw2vec模型訓(xùn)練的詞向量作為BiLSTM模型的輸入數(shù)據(jù),進(jìn)行中文商品評論方面級情感分類,在實驗中取得了較好的實驗結(jié)果,對于研究中文領(lǐng)域文本情感分析具有重要價值。
1 cw2vec模型
在自然語言處理領(lǐng)域,詞向量模型扮演著舉足輕重的角色,在許多任務(wù)中都發(fā)揮著至關(guān)重要的作用,比如機器翻譯、情感分類等。傳統(tǒng)詞向量研究方式是單點表示(One-hot representation)法。根據(jù)分類詞典[7]對所有單詞進(jìn)行排序,每個單詞都有對應(yīng)的位置,用一個與單詞數(shù)量等長的數(shù)組表示某單詞,單詞所在的位置值為l,其余位置的值用0表示。這種方法的優(yōu)點是比較直觀,然而存在的問題是需要對大量語料數(shù)據(jù)進(jìn)行整理,無法計算單詞之間的相似度。2013年谷歌提出基于神經(jīng)網(wǎng)絡(luò)的word2vec[8-9]工具,用于運算詞向量。在隨后的發(fā)展過程中,該算法在實際實驗中取得了良好效果,同時也在不斷改進(jìn)。2014年基于矩陣分布式表示的GloVe模型。10。被提出,通過分解“詞一詞”矩陣得到詞表示,但是相關(guān)算法只適合用在由羅馬字母構(gòu)成的單詞中。對于中文而言,漢字由許多筆畫構(gòu)成,字與詞都包含著豐富的語義。在自然語言處理相關(guān)任務(wù)中,中文語料處理起來比較困難。此外,對于中文漢字的詞向量研究比英文晚,本文使用較先進(jìn)的基于Skip -gram模型改進(jìn)的cw2vec模型。該模型利用漢字一筆一面的結(jié)構(gòu)信息和聯(lián)系,獲得分布式詞向量,能夠保證不損失詞向量語義信息。cw2vec模型以負(fù)采樣進(jìn)行計算。
在cw2vec模型中,定義單詞與其上下義之間的相似函數(shù)sirri(W,c)如下:
其中,m表示當(dāng)前詞語的。元筆面向量,c表示上下文詞語的詞向量,S(w)為當(dāng)前詞語w的n元筆畫集合,m是集合S(w)的n元筆畫元素?;诋?dāng)前詞語w對上下文詞語c的預(yù)測進(jìn)行建模,給定詞語w的概率計算,采用soft-max函數(shù)進(jìn)行模擬預(yù)測,如式(2)所示。
其中,c是詞匯表V中的單詞。采用負(fù)采樣方式,用基于分布的“負(fù)面”抽樣的上下文單詞集合替換復(fù)雜分母。目標(biāo)函數(shù)計算如式(3)所示。
其中,w是當(dāng)前詞語,c是上下義詞語, 是Sigmoid函數(shù),T(w)是當(dāng)前詞語劃窗內(nèi)的所有詞語集合,D是訓(xùn)練語料的所有文本,c是隨機選擇的詞語,作為負(fù)樣例,^是隨機選擇詞語的個數(shù)P[]是負(fù)樣例c 7按照詞頻分布進(jìn)行的采樣。
2 BiLSTM模型
2.1 注意力機制
注意力( Attention)機制以將當(dāng)前任務(wù)目標(biāo)相關(guān)的關(guān)鍵信息從各種信息中挑選出來為主要目標(biāo),本質(zhì)上看注意力機制和人類的選擇性視覺注意力機制相似…。注意力機制早先用于NLP領(lǐng)域的機器翻譯,如圖1所示,在Encod-er-Decoder模型[12]中運用注意力機制。
模型中上下文( Contex)向量cI是權(quán)重化之后的值,用于當(dāng)前時刻f輸入序列的向量。其表達(dá)式如式(4)所示。
其中,i是Encoder端的第i個詞語,H,是Encoder端第J個詞語的隱向量,A是Encoder端第/個詞語與Decoder端第i個詞語之間的權(quán)值。n ,的計算如式(5)所示。 其中,e表示Encoder端位置上第i個詞語對Decoder端位置上第i個詞語產(chǎn)生的影響,e。的計算方法如式(6)所示。
其中,a是一個函數(shù),利用Decoder網(wǎng)絡(luò)最新的隱藏層狀態(tài)s,及編碼器端第1個單詞的隱藏層輸出h作為輸入,計算得到e。。
在時刻f,Decoder解碼出的詞語yt取決于所有Encod-er端隱藏狀態(tài)根據(jù)注意力權(quán)重的加權(quán)組合。并且,注意力權(quán)重的計算取決于Encoder單元的最新狀態(tài)與Encoder端隱藏層狀態(tài)集合的相互作用,即模型可以利用已解碼序列信息有選擇地對源語言序列進(jìn)行編碼,從而生成更準(zhǔn)確的譯文。
2.2 基于注意力機制的BiLSTM模型
長短期記憶網(wǎng)絡(luò)(ISTM)是單向神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),是一種特殊的RNN,它的m現(xiàn)可以用來解決RNN在訓(xùn)練中不能夠處理長期依賴的問題[13]。從網(wǎng)絡(luò)結(jié)構(gòu)看,存在的問題是在計算當(dāng)前神經(jīng)單元狀態(tài)時可以很好地利用前序序列信息,而后序序列信息無法得以有效利用。在進(jìn)行更細(xì)粒度的分類任務(wù)時,需要關(guān)注情感詞、否定詞和副詞等之間的關(guān)聯(lián)交互作用,但是單向LSTM在詞語的表示學(xué)習(xí)過程無無法充分利用文本全局信息,無法有效捕捉更微弱語義信息[14]。此外,利用最后時刻的長序列隱藏層輸出作為句子序列的向量表示,其受序列頭、尾部的影響會不一致。為了解決以上問題,本文將信息反向輸入給模型,將單向LSTM網(wǎng)絡(luò)結(jié)構(gòu)模型設(shè)計成雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)結(jié)構(gòu)模型。模型網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
可以看出,BiLSTM模型是雙向LSTM,增加了反向?qū)硬糠?,在前后序列學(xué)習(xí)過程中,對于第t個單詞而言,在時刻f輸出的前饋層向量和反向?qū)酉蛄糠謩e用矗.∈Rd和h∈Rd表示,其中d是隱藏層向量的維度。前饋層向量h.和反向?qū)酉蛄縣進(jìn)行拼接,用 標(biāo)記隱藏層輸出向量。BiL-STM通過捕獲文本中遠(yuǎn)距離的依賴關(guān)系[15],即使網(wǎng)絡(luò)經(jīng)過多層合成計算,也仍然能夠?qū)⑽谋镜闹饕Z義信息保存下來。
BiLSTM模型結(jié)合注意力機制能夠有效利用給定的不同方面信息,關(guān)注評論語句中的不同位置,判斷語句的主觀情感傾向。模型結(jié)構(gòu)如圖3所示,模型最下面一層是輸入層,將經(jīng)過詞向量訓(xùn)練的輸入序列輸入到模型中,用 表示隱藏層的輸出矩陣,Ⅳ表示序列長度,d表示隱藏層輸出的向量維度。模型中的方面向量用v。表示。
將組合隱藏層出向量與方面向量,利用雙曲正切函數(shù)進(jìn)行非線性激活,如式(7)所示。
式(7)中, 和 均為參數(shù)矩陣,eN是數(shù)值全為1、長度為Ⅳ的列向量, 表示復(fù)制Ⅳ份v。并進(jìn)行組合。向量矩陣M包含序列信息和方面信息,對其進(jìn)行映射,利用Softmax函數(shù)輸出概率分布 ,如式(8)所示。
式(8)中, 。模型的重點是注意力權(quán)重向量計算。a表示一個Ⅳ維注意力向量,每個維度的值代表相應(yīng)位置隱藏層輸出的權(quán)重數(shù)。對隱藏層輸出進(jìn)行加權(quán),可以得到對應(yīng)給定方面的輸入序列的語義表示r∈Rd,如式(9)所示。
為了更好地提升模型的實驗效果,將序列尾部的隱藏層輸出h。加入到語句序列的表示中[16],如式(10)所示。
其中, 是最終輸入語句序列,w和w均為映射參數(shù)矩陣,然后利用Softmax函數(shù)作出情感傾向判斷。
3 實驗驗證及實驗分析
3.1實驗環(huán)境
本文實驗環(huán)境配置如表1所示。
3.2實驗框架
cw2vec模型利用中文漢字筆畫之間的聯(lián)系,更好地融合詞與詞的語義關(guān)聯(lián)信息,訓(xùn)練中文詞向量,改善了詞向量的質(zhì)量,再將詞向量作為BiLSTM模型輸入層傳人,利用BiLSTM模型的特點,使得情感分類任務(wù)上的分類效果進(jìn)一步得到提高。實驗框架如圖4所示。
(1)數(shù)據(jù)預(yù)處理。對于中文數(shù)據(jù)集而言,用于方面級商品評論情感分析的語料庫較少。本文利用Scrapy框架技術(shù)爬取文本數(shù)據(jù),采用中文分詞組件工具Jieba精確模式[17]進(jìn)行分詞和詞性標(biāo)注,手動分配方面信息詞語。
(2)特征向量。在利用cW2vec模型提取中文漢字筆畫信息的特征向量時,需要對漢字進(jìn)行筆畫拆分,本文利用Pvthon腳本從漢典獲取筆畫信息。
(3)情感分類。目前,情感分類方法主要是基于詞典的情感分析和基于機器學(xué)習(xí)的情感分析,相關(guān)算法研究有很多種,如人T神經(jīng)網(wǎng)絡(luò)(RNN)、支持向量機(SVM)、K緊鄰(KNN)等[18]。本文對BiLSTM網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,然后進(jìn)行情感分類。
3.3實驗數(shù)據(jù)
目前,用于方面級情感分類的數(shù)據(jù)集是英文的SemEval-2014 Task4[19],包含餐館和筆記本電腦兩個領(lǐng)域的用戶評論數(shù)據(jù)。每個領(lǐng)域的數(shù)據(jù)集分成正向、負(fù)向和中立3種不同的情感粒度。本文利用爬蟲技術(shù)在某商城網(wǎng)站上獲取了50000條關(guān)于冰箱的客戶評價數(shù)據(jù),但是獲取的商品評論中正負(fù)類評論語句差異比例不平衡,同時也存在很多過短評論語句和特殊表情符號語句,這樣的語料會導(dǎo)致實驗結(jié)果與真實結(jié)果出現(xiàn)偏差,不適合進(jìn)行分類實驗。為了解決這些問題,本文實驗時在眾多語料中選取其中的10000條語句,分成正向、負(fù)向和中立3種情感極性語句。訓(xùn)練其中的6000條評論語句,將其余4000條評論用作測試語句,這樣可以保證分類的正確性。此外,每條評論語句包含了相應(yīng)的方面信息和極性判斷。本文目標(biāo)是識別具有相應(yīng)方面信息句子的極性。數(shù)據(jù)統(tǒng)計如表2所示。
3.4參數(shù)設(shè)置與評價指標(biāo)
實驗數(shù)據(jù)處理完成后,通過cw2vec模型進(jìn)行詞向量訓(xùn)練,參數(shù)設(shè)置會影響詞向量的質(zhì)量以及最終分類模型訓(xùn)練結(jié)果。本文詞向量維度選擇150,詞窗口大小為5。BiL-STM模型中方面向量維度和隱藏層大小為300,學(xué)習(xí)率為0.01,L2正則化權(quán)重為0.01。在評估方面級情感分類任務(wù)的表現(xiàn)時,采用常用評價標(biāo)準(zhǔn),用accuracv[20]作為方法評估標(biāo)準(zhǔn).T是正確預(yù)測的樣本數(shù),N是樣本總數(shù),準(zhǔn)確度是測量所有樣本中正確預(yù)測樣本的百分比。計算如式(12)所示。
3.5 實驗結(jié)果與分析
在相同數(shù)據(jù)上,本文選擇基于CBOW模型和基于Skip-gram模型的word2vec作為參照實驗,實驗結(jié)果如表3所示。在實驗過程中,為了減輕由于隨機初始化產(chǎn)生的性能波動,運行10次訓(xùn)練算法。表3報告了平均準(zhǔn)確度,可以看出,平均而言本文模型優(yōu)于其它組合模型方法。采用CBOW模型和Skip-gram模型,基于英文字母進(jìn)行詞向量訓(xùn)練,對于中文漢字而言,沒有利用漢字的結(jié)構(gòu)信息。cw2vec模型表現(xiàn)較好,能夠有效捕捉漢字特征信息,魯棒性好。
4 結(jié)語
中文文本情感分析研究是目前計算機領(lǐng)域研究的熱點,具有很高的商業(yè)價值和科學(xué)研究價值。本文將提取漢字筆畫特征的cw2vec模型和一種基于神經(jīng)網(wǎng)絡(luò)的BiLSTM模型進(jìn)行組合并用于中文商品評論情感分類,對輸入的文本進(jìn)行詞向量訓(xùn)練,通過分析中文漢字表達(dá)特點獲取分布式向量,根據(jù)BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)特點,將前后單詞語義信息保留下來進(jìn)行情感分類。通過實驗比較,結(jié)果表明,本文方法在情感分類任務(wù)上擁有良好表現(xiàn),具有重要的技術(shù)參考價值。在后續(xù)研究中,將著重分析句法結(jié)構(gòu)并探索詞匯之間的依存關(guān)系,進(jìn)一步提高情感分類精度。
參考文獻(xiàn):
[l]CNNIC.中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[EB/OL]. 2018-08-[1].http://www.cnnic.net.cn/hh'fzyj/hlwxzbg/hlwtjb g/201902/P020190228510533388308.pdf.
[2]劉曉彤,田大銅融合深度學(xué)習(xí)與機器學(xué)習(xí)的在線評論情感分析[J].軟件導(dǎo)刊,2019.18(2):1-4.
[3]LIU B.Sentiment anah- sis and opinion mining[M]California: Morgan&Claypool Publishers, 2012.
[4]WANC W,PAN S J,DAHLMEIER D. et al. Recursive neural condi-tional random fields for aspect-based sentiment analysis[DB/OLl.arxiv.org/pdf/1603.06679.pdf
[5]王新波用戶評論方面級情感分析算法研究[D]北京:北京郵電大學(xué),2018.
[6] 劉宇,鄭成煥.基于Scrapy的深層網(wǎng)絡(luò)爬蟲研究[J].軟件,2017,38(7):111-114
[7]黃仁,張衛(wèi).基于word2rec的互聯(lián)網(wǎng)商品評論情感傾向研究[J].計
算機科學(xué),2016, 43(SI):387-389
[8]KANDOLA E J,HOFMANN T. POGCIO T. et al.A neural prohahilis-tic. language model [J]. Studies in Fuzziness and Soft Computing,2006. 194:137-186
[9]MIKOLOV T. CHEN K. CORRADO G,et al. Efficient estimation ofword representations in vector space[J]. Computer Scienc.e, 2013.
[10]PENNINGTON J, SOCHER R,MANNINC C Glo,'e: global vectorsfor word representation[C]. Proceedings nf the 2014 Conference onEmpirical Methods in Natural Language Processing(EMNLP), 2014.
[11]BAHDANAL D. CHO K, BENGIO Y. Neural mac.hine translation bvjointly learning to align and translate[J].Computer Science, 2014
[12]SUTSKEVER I, VINYALS 0,LE Q V. Sequence to Sequence Learn-ing with Nreural Networks[Z]2014.
[13] 黃磊,杜昌順基于遞歸神經(jīng)網(wǎng)絡(luò)的文本分類研究[J].北京化工 大學(xué)學(xué)報(自然科學(xué)版),2017,44(1):98-104
[14]何原野基于深度學(xué)習(xí)的多標(biāo)簽文本分類方法[D].昆明:云南大學(xué),2017.
[15]張應(yīng)成,楊洋,蔣瑞,等基于BiLSTM-CRF的商情實體識別模型[J].計算機工程,2019(5):308-314.
[16]ROCKTASCHEL T, CREFENSTETTE E, HERMANN K M. et al.Reasoning ahout entailment with neural attention[DB/OL]. arxiv.org,pdf/1509.06664.pdf
[17]黎曦.基于網(wǎng)絡(luò)爬蟲的論壇數(shù)據(jù)分析系統(tǒng)的設(shè)計與實現(xiàn)[D].武漢:華中科技大學(xué),2019
[18] 彭三春,張云華.基于RNTN和CBOW的商品評論情感分類[J].
計算機工程與設(shè)計,2018. 39(3):861-866
[19]KHALIL T, ELBELTAGY S R hrileTMRG at semeval-2016 task 5:deep conrolutional neural networks for aspect category and sentimentextractionEC].Internatinnal Workshop on Semantic Eraluation, 2016.
[20]陳穎熙,廖曉東,蘇例月,等.基于CDBN網(wǎng)絡(luò)的文本情感傾向分類算法[J].計算機系統(tǒng)應(yīng)用,2019,28(1):165-170.
(責(zé)任編輯:孫娟)
收稿日期:2019-06-11
作者簡介:高統(tǒng)超(1994-),男,浙江理工大學(xué)信息學(xué)院碩士研究生,研究方向為智能信息處理;張云華(1965-),男,博士,浙江理工大
學(xué)信息學(xué)院教授、碩士生導(dǎo)師,研究方向為軟件架構(gòu)、軟件工程、智能信息處理。本文通訊作者:高統(tǒng)超。