嚴(yán)鵬
摘? 要: 近年來(lái),隨著互聯(lián)網(wǎng)技術(shù)的進(jìn)步,我國(guó)電子商務(wù)也有了快速的發(fā)展,越來(lái)越多的人選擇網(wǎng)絡(luò)購(gòu)物,顧客利用互聯(lián)網(wǎng)平臺(tái)對(duì)所購(gòu)產(chǎn)品進(jìn)行文字評(píng)價(jià)或數(shù)字評(píng)分已成為一種常態(tài)。商品評(píng)論的情感分類(lèi)是獲取顧客對(duì)該商品直接反饋的一個(gè)重要方式。現(xiàn)階段,在情感分類(lèi)研究中最常用的是基于機(jī)器學(xué)習(xí)和情感詞典的傳統(tǒng)方法,但這些方法都存在一些不足之處。因此,本文主要采用深度學(xué)習(xí)中的LSTM網(wǎng)絡(luò)對(duì)某品牌電視的評(píng)論進(jìn)行模型構(gòu)建與數(shù)據(jù)分析,并與基于機(jī)器學(xué)習(xí)的SVM方法進(jìn)行對(duì)比分析。
關(guān)鍵詞: 情感分類(lèi);商品評(píng)論;深度學(xué)習(xí);LSTM;Word Embedding
【Abstract】: In recent years, with the progress of Internet technology, China's e-commerce has also had a rapid development, more and more people choose shopping network, customers using the Internet platform to buy products for text evaluation or digital score has become a normal. Emotional classification of product reviews is an important way to obtain customers' direct feedback on the product. At present, the traditional methods based on machine learning and emotion dictionary are most commonly used in the research of emotion classification, but these methods have some shortcomings. Therefore, this paper mainly USES LSTM network in deep learning to conduct model construction and data analysis on the comments of a certain brand of TV, and conducts comparative analysis with SVM method based on machine learning.
【Key words】: Emotional classification; Product reviews; Deep learning; LSTM; Word embedding
0? 引言
情感分類(lèi)又稱(chēng)做觀點(diǎn)挖掘,其研究目標(biāo)就是分析文本中人們對(duì)所評(píng)論事物(如產(chǎn)品,服務(wù),時(shí)事話題等)的情感、觀點(diǎn)或者具體態(tài)度。情感分類(lèi)在成為自然語(yǔ)言處理中的一個(gè)研究主題后,迅速成為了熱點(diǎn)研究領(lǐng)域[1-3]。情感分類(lèi)作為一種特殊的分類(lèi)問(wèn)題,既有一般模式分類(lèi)的共性問(wèn)題,也有其特殊性,如情感信息表達(dá)的隱蔽性、多義性和極性不明顯等。針對(duì)這些問(wèn)題人們做了大量研究,提出了很多分類(lèi)方法。這些方法主要按機(jī)器學(xué)習(xí)方法歸類(lèi)與按情感詞典方法劃分[4]。
基于機(jī)器學(xué)習(xí)的方法[5]中,根據(jù)所使用訓(xùn)練樣本的標(biāo)注情況,情感文本分類(lèi)可以大致分為有監(jiān)督學(xué)習(xí)方法、半監(jiān)督學(xué)習(xí)方法和無(wú)監(jiān)督學(xué)習(xí)方法三類(lèi)?;谟斜O(jiān)督學(xué)習(xí)的情感分類(lèi)方法使用機(jī)器學(xué)習(xí)方法來(lái)訓(xùn)練大量標(biāo)注樣本?;诎氡O(jiān)督學(xué)習(xí)的情感分類(lèi)方法是通過(guò)在少量標(biāo)注樣本上訓(xùn)練,并在大量未標(biāo)注樣本上進(jìn)行學(xué)習(xí)的方式構(gòu)建分類(lèi)模型?;跓o(wú)監(jiān)督學(xué)習(xí)的情感分類(lèi)方法是指僅使用非標(biāo)注樣本進(jìn)行情感分類(lèi)建模。
基于詞典的方法[6]主要通過(guò)制定一系列的情感詞典和規(guī)則,對(duì)文本進(jìn)行拆句、分析及匹配詞典(一般有詞性分析,句法依存分析)來(lái)計(jì)算情感值,最后通過(guò)情感值來(lái)作為文本的情感傾向判斷的依據(jù)。
除了基于機(jī)器學(xué)習(xí)和詞典的傳統(tǒng)方法,基于深度學(xué)習(xí)的方法也是近期學(xué)者的研究方向,并被廣泛應(yīng)用于情感分類(lèi)任務(wù)中。
電子商務(wù)網(wǎng)站的商品評(píng)論數(shù)據(jù)豐富,情感特征較為明顯。以商品評(píng)論文本為對(duì)象,進(jìn)行情感分類(lèi)既有現(xiàn)實(shí)基礎(chǔ),也有積極的應(yīng)用前景[7-13]。情感分類(lèi)應(yīng)用于商品評(píng)論的主要任務(wù)是識(shí)別出用戶(hù)的評(píng)論文本所流露的情感信息。通過(guò)識(shí)別出的情感信息,我們能有效判別該商品在顧客心中的喜好,并可以借此推斷出該商品的優(yōu)劣。
根據(jù)文本的粒度不同,文本的情感分類(lèi)可以被分成篇章級(jí)別情感分類(lèi)、句子級(jí)別情感分類(lèi)以及詞語(yǔ)級(jí)別情感分類(lèi)三種[14-16]。本文主要針對(duì)句子級(jí)別情感分類(lèi),并且采用基于深度學(xué)習(xí)的LSTM(Long Short-Term Memory,長(zhǎng)短期記憶)方法來(lái)進(jìn)行情感分類(lèi)。
1? 相關(guān)工作
1.1? Word Embedding
Word embedding(詞嵌入)[17]是NLP(自然語(yǔ)言處理)中一組語(yǔ)言模型(language modeling)和特征學(xué)習(xí)技術(shù)(feature learning techniques)的總稱(chēng),這些技術(shù)會(huì)把詞匯表中的單詞或者短語(yǔ)映射成由實(shí)數(shù)構(gòu)成的向量上。
Word embedding具體獲取的方式有兩種:
(1)在神經(jīng)網(wǎng)絡(luò)中添加embedding層去學(xué)習(xí)word embedding,它是在詞向量之間反映出語(yǔ)義關(guān)系,將人類(lèi)自然語(yǔ)言映射到幾何空間中。
另一種方式是利用預(yù)訓(xùn)練的word embedding,尤其是適用于擁有少量的訓(xùn)練數(shù)據(jù)的情況下,重利用在復(fù)雜問(wèn)題上學(xué)習(xí)到的特征應(yīng)用到自己的任務(wù)中,這是一種簡(jiǎn)單而有效的方法。我們?cè)陬A(yù)訓(xùn)練中采用已有的word embedding預(yù)計(jì)算的數(shù)據(jù)庫(kù),例如,word2vec[18],Glove。目前,最常用的是Google開(kāi)源的Word2Vec,用高維的向量來(lái)表示詞語(yǔ),并把具有相近意思的詞語(yǔ)放在相近的位置,且固定詞向量的維度,就可以通過(guò)實(shí)數(shù)向量來(lái)訓(xùn)練模型,以此獲得詞語(yǔ)的詞向量表示。具體來(lái)說(shuō),Word2Vec中涉及到了兩種算法,一個(gè)是CBOW,一個(gè)是Skip- Gram[19-20]。
二者模型如圖1、2所示。
1.2? LSTM (Long Short-Term Memory)
由S.Hochreiter等[21]提出的長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)LSTM是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),可以解決較長(zhǎng)的序列數(shù)據(jù),主要是為了解決長(zhǎng)序列訓(xùn)練過(guò)程中的梯度消失和梯度爆炸問(wèn)題。簡(jiǎn)單來(lái)說(shuō),就是相比普通的RNN,LSTM能夠在更長(zhǎng)的序列中有更好的表現(xiàn)。LSTM解決了RNN[22]的長(zhǎng)期依賴(lài)問(wèn)題,其特點(diǎn)是在RNN各層結(jié)構(gòu)單元中添加了輸入門(mén)、遺忘門(mén)和輸出門(mén)等閘門(mén)[23]。LSTM結(jié)構(gòu)如圖3所示。
三個(gè)控制閥門(mén)組成了LSTM的基本單元,稱(chēng)為cell,下圖是LSTM神經(jīng)網(wǎng)絡(luò)一個(gè)單元的基本結(jié)構(gòu),其中fn表示遺忘門(mén),in表示輸入門(mén),on表示輸出門(mén),hn表示當(dāng)前單元狀態(tài)。
LSTM神經(jīng)網(wǎng)絡(luò)cell的基本結(jié)構(gòu)如圖4所示。
其中表示函數(shù),作用于三個(gè)門(mén)上,其輸出為[0,1],每個(gè)值表示對(duì)應(yīng)的部分信息是否應(yīng)該通過(guò)。0值表示不允許信息通過(guò),1值表示讓所有信息通過(guò)。而函數(shù)用在了狀態(tài)和輸出。為權(quán)重,如為遺忘門(mén)對(duì)應(yīng)的上一時(shí)態(tài)輸出信息的權(quán)重,表示偏置。
2? 模型
2.1? 文本獲取
本文以京東網(wǎng)站上某品牌電視評(píng)論作為數(shù)據(jù)集來(lái)進(jìn)行情感分類(lèi)[24]。通過(guò)從京東網(wǎng)站爬取用戶(hù)評(píng)論文本,并使用人工標(biāo)注的方法將文本進(jìn)行初步情感分類(lèi)。在本模型中,情感分為正面情感和負(fù)面情感兩類(lèi)。在標(biāo)注成功之后將文本分成兩部分,一部分為訓(xùn)練數(shù)據(jù)集,一部分為測(cè)試數(shù)據(jù)集,其中訓(xùn)練數(shù)據(jù)集用于訓(xùn)練模型,測(cè)試數(shù)據(jù)集用于測(cè)試模型。本文共收集4283條評(píng)論。樣例如表1、2所示。
2.2? 文本分析
評(píng)論文本標(biāo)注之后,對(duì)文本進(jìn)行數(shù)據(jù)分析,研究其情感分布和評(píng)論句子長(zhǎng)度分布。其中正面情感評(píng)論1908條,負(fù)面情感評(píng)論2375條,由此可看出數(shù)據(jù)集中正負(fù)情感分類(lèi)數(shù)目相差不多。
句子長(zhǎng)度及出現(xiàn)頻數(shù)統(tǒng)計(jì)如圖5所示。
句子長(zhǎng)度累積分布函數(shù)如圖6所示。
從上圖中可以看出,大多數(shù)樣本的句子長(zhǎng)度集中在1-200之間。因此,句子長(zhǎng)度累計(jì)頻率取0.91分位點(diǎn),則長(zhǎng)度為183左右。
2.3? 模型構(gòu)建
Keras提供了一個(gè)嵌入層,適用于文本數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),這個(gè)嵌入層就是embedding層。它是一個(gè)靈活的圖層,可以以多種方式使用,本文將它用作深度學(xué)習(xí)模型的一部分,將該層嵌入于模型本身一起學(xué)習(xí)。數(shù)據(jù)經(jīng)過(guò)embedding層之后就方便地轉(zhuǎn)換為了可以由LSTM進(jìn)一步處理的格式,且經(jīng)過(guò)embedding層處理后,數(shù)據(jù)進(jìn)行了一定程度的降維,由此加快了模型的數(shù)據(jù)處理速度。
使用embedding層+LSTM網(wǎng)絡(luò)+Softmax函數(shù)構(gòu)建模型。
將embedding層添加到模型中進(jìn)行數(shù)據(jù)集的詞向量生成。
生成詞向量后,搭建LSTM網(wǎng)絡(luò),將已經(jīng)得到的詞向量通過(guò)LSTM網(wǎng)絡(luò)進(jìn)行文本的特征提取。
最后將LSTM網(wǎng)絡(luò)提取出的文本特征使用softmax函數(shù)進(jìn)行預(yù)測(cè),得出最終結(jié)果。
3? 實(shí)驗(yàn)與結(jié)果分析
我們將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集和測(cè)試集的比例為9∶1。訓(xùn)練集用于訓(xùn)練LSTM模型,測(cè)試集用于測(cè)試模型的分類(lèi)效果。使用訓(xùn)練集將LSTM模型訓(xùn)練5次,可以看出,該模型在訓(xùn)練集上的準(zhǔn)確率在95%以上。隨后,使用訓(xùn)練好的LSTM模型對(duì)測(cè)試集進(jìn)行測(cè)試。
本次實(shí)驗(yàn)還與基于機(jī)器學(xué)習(xí)的SVM方法進(jìn)行對(duì)比。本實(shí)驗(yàn)采用的評(píng)估分類(lèi)模型的主要指標(biāo)為模型分類(lèi)的準(zhǔn)確率,具體計(jì)算公式如下:
其中,a表示情感分類(lèi)模型判斷文本類(lèi)別正確的數(shù)目;b表示情感分類(lèi)模型判斷錯(cuò)誤將本不屬于此類(lèi)的文本分到本類(lèi)別的數(shù)目。實(shí)驗(yàn)結(jié)果如表3所示。
上表中可以輕易看出使用Embedding+LSTM的深度學(xué)習(xí)模型的準(zhǔn)確率明顯要高于基于傳統(tǒng)機(jī)器學(xué)習(xí)的SVM模型。采用基于機(jī)器學(xué)習(xí)的方法由于需要進(jìn)行特征的選擇和降維操作仍需要較大的工作量,由此可以證實(shí)本文提出的LSTM模型對(duì)商品評(píng)論的情感分類(lèi)具有較好的實(shí)用性和較高的準(zhǔn)確性。
4? 總結(jié)
本次實(shí)驗(yàn)主要采用將embedding層嵌入LSTM神經(jīng)網(wǎng)絡(luò)的方法來(lái)構(gòu)建LSTM模型。該模型較于傳統(tǒng)情感詞典和機(jī)器學(xué)習(xí)方法有很大優(yōu)勢(shì),克服了傳統(tǒng)情感詞典方法的領(lǐng)域詞典不足的情況,也不用人為的提取特征,在訓(xùn)練結(jié)果上也得到了很大的提升,這也證明了該模型的可行性。由于條件限制,本文主要使用LSTM網(wǎng)絡(luò)進(jìn)行模型構(gòu)建,以此對(duì)文本情感分類(lèi),尚未與其余基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行研究和對(duì)比實(shí)驗(yàn)。在未來(lái)的工作中,可以圍繞這一點(diǎn)進(jìn)行展開(kāi)研究。
參考文獻(xiàn)
[1]王仲遠(yuǎn), 程健鵬, 王海勛, 文繼榮. 短文本理解研究[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(02): 262-269.
[2]耿斌. 在線評(píng)論對(duì)用戶(hù)購(gòu)買(mǎi)行為的影響研究[D]. 南京: 南京大學(xué), 2019.
[3]左梅, 荊曉遠(yuǎn). 基于深度記憶網(wǎng)絡(luò)的特定目標(biāo)情感分類(lèi)[J]. 計(jì)算機(jī)應(yīng)用究: 2019-07-3, 1-6.
[4]PANDARACHALILR, SENDHILKUMA RS, MAHALAK SHMI G. Twitter sentiment analysis for large-scale data: an unsupervised approach[J]. Cognitive Computation, 2015, 7(2): 254-262.
[5]PANG B, LEE L, VAITHYANATHAN S. Thumbs up?: sentiment classification using machine learning techni ques[C]. Proceedings of the 2002 Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2002: 79-86.
[6]Lunwei Ku, Tungho Wu, Liying Lee, et al. Construction of an Evaluation Corpus for Opinion Extraction[C]. NTCIR-5 Japan 2005: 513-520.
[7]張紫瓊, 葉強(qiáng), 李一軍. 互聯(lián)網(wǎng)商品評(píng)論情感分析研究綜述[J]. 管理科學(xué)學(xué)報(bào), 2010, 13(06): 84-96.
[8]葉強(qiáng), 張紫瓊, 羅振雄. 面向互聯(lián)網(wǎng)評(píng)論情感分析的中文主觀性自動(dòng)判別方法研究[J]. 信息系統(tǒng)學(xué)報(bào), 2007(01): 79-91.
[9]陸文星, 王燕飛. 中文文本情感分析研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2012, 29(06): 2014-2017.
[10]趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學(xué)報(bào), 2010, 21(08): 1834-1848.
[11]周立柱, 賀宇凱, 王建勇. 情感分析研究綜述[J]. 計(jì)算機(jī)應(yīng)用, 2008(11): 2725-2728.
[12]謝法舉, 劉臣, 唐莉. 在線評(píng)論情感分析研究綜述[J]. 軟件導(dǎo)刊, 2018, 17(02): 1-4+7.
[13]靳文利, 張建. 電子商務(wù)對(duì)傳統(tǒng)企業(yè)的影響及對(duì)策[J]. 軟件, 2015, 36(6): 158-162.
[14]張英. 基于深度神經(jīng)網(wǎng)絡(luò)的微博短文本情感分析研究[D]. 鄭州: 中原工學(xué)院, 2017.
[15]江周峰, 楊俊, 鄂海紅. 結(jié)合社會(huì)化標(biāo)簽的基于內(nèi)容的推薦算法[J]. 軟件, 2015, 36(1): 1-5.
[16]陳磊磊. 不同距離測(cè)度的K-Means 文本聚類(lèi)研究[J]. 軟件, 2015, 36(1): 56-61.
[17]Mikolov T, Sutskever I, Chen K, et al. Distributed Repre sentations of Words and Phrases and Their Composi tion ality[C]. Proceedings of the Advances in Neural Information Processing Systems. Currant Associates, 2013: 3111-3119.
[18]王云龍. 基于Word2Vec新詞識(shí)別的評(píng)論情感分析系統(tǒng)的研究與實(shí)現(xiàn)[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2018.
[19]MIKOLOV T, CHEN Kai, COR RADO G, et al. Efficient estimation of word representations in vector space[J]. Computer Science, 2013, 2(12): 27-35.
[20]BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3: 1137-1155.
[21]HOCH REITE R S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735.
[22]Jain A, Zamir A R, Savarese S, et al. Structural-RNN: Deep Learning on Spatio-Temporal Graphs[C]. IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2016: 5308-5317.
[23]張玉環(huán), 錢(qián)江. 基于兩種 LSTM 結(jié)構(gòu)的文本情感分析[J]. 軟件, 2018, 39(1): 116-120.
[24]王鐵剛. 社交媒體數(shù)據(jù)的獲取分析[J]. 軟件, 2015, 36(2): 86-91.