魏廣順, 吳開(kāi)超
?
基于詞向量模型的情感分析①
魏廣順1,2, 吳開(kāi)超2
1(中國(guó)科學(xué)院大學(xué), 北京100049)2(中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心, 北京100190)
隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展, 以商品評(píng)論等帶有主觀性的短文本信息急劇增加. 海量的文本信息使得人工管理越來(lái)越困難. 本文以商品評(píng)論為研究對(duì)象進(jìn)行情感分析. 針對(duì)商品評(píng)論為短文本的特點(diǎn), 本文在詞向量的基礎(chǔ)上提出了詞向量疊加方法和加權(quán)詞向量方法進(jìn)行文本特征的提取, 從而更深層次的提取短文本特征. 在進(jìn)行評(píng)論情感分析模型性能的比較中, 說(shuō)明了本文所提方法的有效性. 基于情感分析技術(shù)可以解決人工難以勝任的海量商品評(píng)論的分類(lèi), 方便用戶快速獲取有效信息.
情感分析; 加權(quán)詞向量; 商品評(píng)論; 短文本
隨著互聯(lián)網(wǎng)的快速發(fā)展, 推動(dòng)了像淘寶、亞馬遜、京東等電子商務(wù)網(wǎng)站的發(fā)展. 這些購(gòu)物網(wǎng)站特別強(qiáng)調(diào)用戶的參與, 為用戶發(fā)表自己對(duì)商品的評(píng)價(jià)提供了在線評(píng)論機(jī)制. 這些評(píng)論不僅為廠家和商家提供了傳統(tǒng)交易中難以獲取的反饋信息, 而且影響著后續(xù)消費(fèi)者的購(gòu)買(mǎi)行為. 但是隨著商品評(píng)價(jià)信息數(shù)量的快速增長(zhǎng), 使得人工判斷這些雜亂無(wú)章的評(píng)論信息的主觀情感傾向性越來(lái)越困難. 因此, 構(gòu)建一個(gè)自動(dòng)的商品評(píng)論文本的情感傾向性分類(lèi)系統(tǒng)為消費(fèi)者和商家提供在線評(píng)論的傾向性分析是很有必要的.
情感分析也稱為觀點(diǎn)挖掘、意見(jiàn)挖掘等, 是指通過(guò)分析文本中的統(tǒng)計(jì)和語(yǔ)義等信息, 挖掘出文本中所蘊(yùn)含的情感傾向, 如消極、積極、中立等. 情感分析作為自然語(yǔ)言處理中的一個(gè)重要分支, 在越來(lái)越多的領(lǐng)域被應(yīng)用, 如: 輿論監(jiān)督、市場(chǎng)反饋、品牌營(yíng)銷(xiāo)、信息檢索等. 按照處理文本的粒度可以將情感分析分為詞語(yǔ)級(jí)、短語(yǔ)級(jí)、句子級(jí)、篇章級(jí)和多篇章級(jí)等[1]. 通過(guò)情感分析可以為用戶決策提供依據(jù). 情感分析方法主要分為基于語(yǔ)義的方法和基于機(jī)器學(xué)習(xí)的方法[2]. 本文主要研究商品評(píng)論的情感分析, 屬于基于篇章級(jí)的研究. 通過(guò)情感分析方法構(gòu)建情感分類(lèi)系統(tǒng), 可以實(shí)時(shí)的對(duì)用戶評(píng)論進(jìn)行分類(lèi), 為解決網(wǎng)上雜亂無(wú)章的文本信息提供了一種有效的方法.
商品評(píng)論作為一種用戶反饋信息通常較短, 屬于短文本. 短文本是指文本長(zhǎng)度較短, 一般不超過(guò)100個(gè)字符[3]. 商品評(píng)論與其他文本信息(如新聞等)相比有其獨(dú)有的特點(diǎn): 表達(dá)不規(guī)范; 網(wǎng)絡(luò)用語(yǔ)較多; 內(nèi)容較短等. 商品評(píng)論作為一種消費(fèi)者對(duì)購(gòu)買(mǎi)物品的評(píng)價(jià), 帶有明顯的主觀性情感傾向. 如“物流快, 服質(zhì)優(yōu), 商品人性化定造, 設(shè)計(jì)美觀大方, 尺碼合適, 非常滿意!”, 這條商品評(píng)論帶有用戶對(duì)所購(gòu)買(mǎi)商品的的主觀情感傾向. 這就為情感分析研究提供了可能性.
本文主要結(jié)構(gòu)如下: 第一部分介紹情感分析領(lǐng)域的相關(guān)工作; 第二部分主要介紹基于詞向量模型的文本特征提取方法; 第三部分實(shí)驗(yàn)結(jié)果對(duì)比分析; 最后對(duì)本文工作進(jìn)行總結(jié).
情感分析方法主要分為兩種: 基于語(yǔ)義的方法和基于機(jī)器學(xué)習(xí)的方法. 基于語(yǔ)義的方法主要是通過(guò)情感詞典, 計(jì)算文本的情感值來(lái)進(jìn)行確定文本的情感傾向[4]; 基于機(jī)器學(xué)習(xí)的方法主要是通過(guò)提取文本中的特征, 利用機(jī)器學(xué)習(xí)中的分類(lèi)算法通過(guò)一定規(guī)模的樣本訓(xùn)練來(lái)構(gòu)建模型, 從而預(yù)測(cè)新文本的情感傾向[5,6].
基于語(yǔ)義的方法可以充分利用人工構(gòu)建的情感詞典, 這些情感詞典中的詞往往是那些能夠明確反應(yīng)人的情感傾向的詞. 但是情感詞典不可能包括所有的情感詞, 而且網(wǎng)絡(luò)用語(yǔ)多樣化使得情感詞典的構(gòu)建難度增加. 基于機(jī)器學(xué)習(xí)的方法是通過(guò)機(jī)器學(xué)習(xí)算法學(xué)習(xí)給定訓(xùn)練集的特征來(lái)構(gòu)建模型. 一般在文本分類(lèi)中常見(jiàn)的機(jī)器學(xué)習(xí)算法包括決策樹(shù)、KNN、Logistic回歸、支撐向量機(jī)(SVM)等. 在實(shí)際研究和實(shí)驗(yàn)中支撐向量機(jī)(SVM)被證明在情感分析中相對(duì)于其他方法具有更優(yōu)的效果[7].
基于機(jī)器學(xué)的情感分析方法是一種統(tǒng)計(jì)學(xué)習(xí)方法, 需要對(duì)文本進(jìn)行向量化, 從而更好的利用機(jī)器學(xué)習(xí)算法. 傳統(tǒng)的向量空間模型(VSM)[8]是將文本看作一組詞組成的序列, 通過(guò)有效的特征詞選取方法如文檔頻率、信息增益(IG)、卡方統(tǒng)計(jì)等, 選取適當(dāng)數(shù)量(N)的特征詞. 這些特征詞組成一個(gè)維歐式空間, 每一篇文檔被以向量[1,2,···,]映射到這個(gè)維空間中. 其中表示文檔中第個(gè)特征詞在空間的第維坐標(biāo)的權(quán)重值. 一般用TF-IDF作為權(quán)重. 一些傳統(tǒng)的情感分析研究都是基于VSM模型進(jìn)行的研究[9]. 向量空間模型一般維數(shù)在幾千維甚至上萬(wàn)維, 對(duì)于商品評(píng)論這種短文本會(huì)形成特征的稀疏性問(wèn)題, 即在文本向量化后會(huì)出現(xiàn)特別多權(quán)值為0的維度.
為了解決商品評(píng)論在向量空間模型中特征稀疏性問(wèn)題, 本文提出了基于詞向量模型[10]的特征提取方法. Bengio等提出了一種神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型NNLM(Neural Network Language Model)用于預(yù)測(cè)在給定上下文的情況下生成當(dāng)前詞的概率[11]. 這個(gè)模型同時(shí)也成為了詞向量模型的基礎(chǔ).
傳統(tǒng)的文本特征提取方法是基于向量空間模型的, 即將文本看作無(wú)序的詞組成的序列. 這種向量空間模型存在數(shù)據(jù)稀疏、丟失詞序信息的缺點(diǎn). 為了解決向量空間模型的缺點(diǎn), 出現(xiàn)了將詞法和句法等一些復(fù)雜的文本特征加入到文本特征提取中的方法. 隨著越來(lái)越多的特征加入, 使得基于機(jī)器學(xué)習(xí)的文本分析方法的性能得到極大的提升. 本文以詞向量為基礎(chǔ), 將文本的特征表達(dá)引入到詞向量空間. 并在詞向量空間中對(duì)文本進(jìn)行了多種方式的特征提取方法.
2.1Word2vec詞向量模型
Word2vec是2013年由Google開(kāi)源的一款將詞表示為實(shí)數(shù)向量的高質(zhì)量工具, 是Mikolov等所提出的詞向量模型的一種實(shí)現(xiàn). Word2vec是一種無(wú)監(jiān)督學(xué)習(xí)工具, 它以未進(jìn)行人工標(biāo)記的語(yǔ)料作為訓(xùn)練集, 通過(guò)神經(jīng)網(wǎng)絡(luò)將詞映射到一個(gè)K維歐式空間. 詞向量在K維歐式空間上的特征同時(shí)反應(yīng)了詞之間的特征.
由于Word2vec學(xué)習(xí)的是語(yǔ)料中文本的語(yǔ)義關(guān)系, 這就要求用作訓(xùn)練的語(yǔ)料要充分大, 從而保證詞向量的質(zhì)量. 本文利用Word2Vec工具對(duì)2千萬(wàn)條商品評(píng)論進(jìn)行訓(xùn)練, 最終得到一個(gè)500MB的詞向量模型. 詞向量在K維空間上的相似度, 同時(shí)反映了詞在文本中的相似度關(guān)系. 可以通過(guò)計(jì)算詞之間的相似度來(lái)說(shuō)明此詞向量模型的有效性.
表1 “服務(wù)態(tài)度”最相似的5個(gè)詞及其相似度
由上表可以看出, 通過(guò)2千萬(wàn)條商品評(píng)論訓(xùn)練得到的詞向量模型可以充分保證其詞向量的質(zhì)量.
2.2 詞向量疊加文本向量化方法
詞向量模型可以將每個(gè)詞表示為一個(gè)維的向量. 商品評(píng)論可以看作詞序列化的表示, 一種簡(jiǎn)單的將商品評(píng)論向量化的方法是將詞向量進(jìn)行拼接. 即將一個(gè)有個(gè)不同詞的商品評(píng)論表示為一個(gè)×維的向量. 這種方式的缺點(diǎn)是當(dāng)取值很大時(shí), 會(huì)得到一個(gè)維度特別高的向量, 造成維度災(zāi)難; 每一條商品評(píng)論所含詞的個(gè)數(shù)也不相同, 這會(huì)造成商品評(píng)論向量化之后維度的不一致.
為了解決詞向量拼接方法的缺點(diǎn), 本文首先提出將商品評(píng)論中詞的詞向量疊加來(lái)得到商品評(píng)論的向量化表示. 詞向量疊加后會(huì)得到一個(gè)維數(shù)與詞向量同維度的商品評(píng)論的實(shí)數(shù)化向量. 如評(píng)論“好吃, 便宜, 收銀員態(tài)度很好, 總體來(lái)說(shuō)是很好”, 分詞后為[好吃, 便宜, 收銀員, 態(tài)度, 很好, 總體, 來(lái)說(shuō), 是, 很好]. 每個(gè)詞可以表示為一個(gè)維的向量, 將“好吃”、“便宜”等這些詞的詞向量進(jìn)行疊加, 得到一個(gè)維的向量進(jìn)行文本的向量化表達(dá). 為了驗(yàn)證詞向量疊加本文特征提取的有效性, 本文將其與傳統(tǒng)的空間向量模型的文本情感分析效果進(jìn)行了比較.
2.3 加權(quán)詞向量文本向量化方法
TF-IDF是在信息檢索中的一個(gè)概念, 同時(shí)也被認(rèn)為是信息檢索領(lǐng)域最重要的發(fā)明[12]. 在搜索、分類(lèi)等領(lǐng)域都有著廣泛應(yīng)用. TF即Term Frequency, 表示一個(gè)詞在一篇文檔中出現(xiàn)的頻率. IDF即Inverse Document Frequency, 表示的是在文本集中多少篇文檔包含該詞, 是詞的文檔頻率. TF-IDF值為T(mén)F與IDF的乘積. 其既充分考慮了詞在文檔中的出現(xiàn)頻率, 又充分考慮了詞在整個(gè)文檔集中的出現(xiàn)頻率, 是一種對(duì)詞在文本中的重要性比較綜合的度量.
每個(gè)詞在每條商品評(píng)論中的都有其重要性, 簡(jiǎn)單的將詞向量相加將每個(gè)詞在商品評(píng)論中的重要性視為相同, 丟失了詞語(yǔ)重要性信息. 如評(píng)論“好吃, 便宜, 收銀員態(tài)度很好, 總體來(lái)說(shuō)是很好”, 分詞后為[好吃, 便宜, 收銀員, 態(tài)度, 很好, 總體, 來(lái)說(shuō), 是, 很好]. “很好”無(wú)論是在語(yǔ)義上還是在其權(quán)重上都對(duì)情感分析應(yīng)該起到最重要的作用, 當(dāng)采用簡(jiǎn)單的詞向量相加時(shí), 這種明顯的特征詞就會(huì)被視為與其他詞一樣來(lái)進(jìn)行處理.
本文選取TF-IDF作為詞在商品評(píng)論中的權(quán)重, 既充分考慮了詞在當(dāng)前商品評(píng)論中的重要性, 又充分考慮了該詞在整個(gè)商品評(píng)論文檔集中的重要性, 在對(duì)評(píng)論文本向量化的過(guò)程中保留了其重要性信息.
圖1 商品評(píng)論加權(quán)詞向量流程圖
為了充分利用商品評(píng)論中對(duì)情感分析起到更大作用詞的信息, 本文進(jìn)一步提出了一種加權(quán)詞向量的方法. 此方法充分利用詞在商品評(píng)論中的權(quán)重信息, 在將商品評(píng)論向量化的過(guò)程中, 將詞在文檔集中的TF-IDF值作為權(quán)重參與到向量化的過(guò)程中. 圖1給出了將一條商品評(píng)論進(jìn)行加權(quán)詞向量表示的求法的流程圖. [word,word,···,word]表示一條商品評(píng)論分詞后的結(jié)果.W=[w,w,···,w]表示word在當(dāng)前詞向量模型中的向量化表示.weight表示word在當(dāng)前文檔集中的TF-IDF值.
2.4 情感分析模型
支撐向量機(jī)[13]的基本思想是將輸入空間中的輸入轉(zhuǎn)換到特征空間, 然后在特征空間中進(jìn)行學(xué)習(xí). 支撐向量機(jī)通過(guò)求解一個(gè)凸二次規(guī)劃問(wèn)題, 即:
在特征空間中找到一個(gè)最優(yōu)分類(lèi)超平面: w·x+b=0.
使得分類(lèi)間隔最大化, 將樣本分到不同的類(lèi)別中.
SVM算法解決的是二值分類(lèi)問(wèn)題, 當(dāng)需要進(jìn)行多值分類(lèi)的研究時(shí)要通過(guò)構(gòu)建多個(gè)二值分類(lèi)的SVM模型以投票的方式進(jìn)行解決.
在文本分類(lèi)中, 有大量的分類(lèi)算法, 如KNN、Logistic回歸、決策樹(shù)等. 但在大量的實(shí)驗(yàn)和研究中表明SVM在文本分類(lèi)中較其他分類(lèi)算法有更好的效果, 并且大量的文本分類(lèi)研究都是以SVM為基礎(chǔ)[14-16]. 本文以SVM算法構(gòu)建文本分類(lèi)器, 從而比較本文所提評(píng)論文本特征提取方法較傳統(tǒng)空間向量模型的有效性. 圖2為基于詞向量模型的文本特征提取方法與線性支撐向量機(jī)算法構(gòu)建分類(lèi)器的流程圖.
2.3 心理護(hù)理 該患者由于術(shù)后反復(fù)出現(xiàn)惡心嘔吐癥狀,療程長(zhǎng)。患者思想壓力大,情緒波動(dòng)。作為醫(yī)護(hù)人員要特別做好心理護(hù)理進(jìn)行多方位的心理疏導(dǎo)減輕患者的心理壓力。
算法偽代碼:
[1] 讀取人工標(biāo)注的商品評(píng)論
[2] 文本預(yù)處理, 分詞、去除停用詞等
[3] 商品評(píng)論初始化向量=[]
[5] forwordin [word,word,···,word]
[6] ifword在詞向量模型中
[7] 取出word的詞向量W
[8] 計(jì)算word在文檔集中的tf_idf值weight
[9]=+weight*W
圖2 詞向量模型評(píng)論情感分析流程圖
上節(jié)中介紹了兩種文本特征提取方法:詞向量疊加方法、加權(quán)詞向量方法. 為了驗(yàn)證本文所提特征方法在情感分析上的有效性, 本文分別將兩種特征提取方法與線性支撐向量機(jī)算法相結(jié)合, 構(gòu)建情感分類(lèi)系統(tǒng), 并于傳統(tǒng)的空間向量模型進(jìn)行兩個(gè)方面的比較:
計(jì)算量的分析和分類(lèi)效果的比較.
3.1 計(jì)算量比較
本文使用20000條人工標(biāo)注的商品評(píng)論作為實(shí)驗(yàn)數(shù)據(jù). 評(píng)論的平均長(zhǎng)度為96個(gè)字. 在試驗(yàn)中, 傳統(tǒng)向量模型使用8000維特征詞作為特征, 詞向量模型維數(shù)為300維. 當(dāng)對(duì)樣本進(jìn)行向量化后, 傳統(tǒng)空間向量模型得到文件的大小約為600MB, 而以詞向量為基礎(chǔ)的文本向量化方法得到的文件大小約為25MB. 顯然, 詞向量模型在數(shù)據(jù)文本數(shù)據(jù)向量化后可以有效的減少數(shù)據(jù)的維數(shù), 從而在小數(shù)據(jù)量的情況下加快分類(lèi)器的訓(xùn)練速度. 模型訓(xùn)練時(shí)間, 以詞向量為基礎(chǔ)的文本向量化方法模型訓(xùn)練時(shí)間約為17秒, 而傳統(tǒng)空間向量模型的模型訓(xùn)練時(shí)間約為510秒. 雖然在用大量無(wú)監(jiān)督語(yǔ)料訓(xùn)練詞向量時(shí)會(huì)耗費(fèi)大量時(shí)間, 但是詞向量的訓(xùn)練是一次性的工作, 在模型訓(xùn)練和后期對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)時(shí)一次性加載訓(xùn)練好的詞向量模型即可. 因此本文比較分類(lèi)器訓(xùn)練時(shí)間時(shí)不考慮詞向量的訓(xùn)練時(shí)間.
3.2分類(lèi)效果比較
3.2.1模型評(píng)估參數(shù)
在模型評(píng)估中采用Precision、Recall和F1-Measure作為模型的評(píng)價(jià)指標(biāo). 以下為各評(píng)價(jià)指標(biāo)的說(shuō)明.
表2 混淆矩陣
TP表示在樣本中為正向, 被預(yù)測(cè)為正向的樣本數(shù);
FP表示在樣本中為負(fù)向, 被預(yù)測(cè)為正向的樣本數(shù);
FN表示在樣本中為正向, 被預(yù)測(cè)為負(fù)向的樣本數(shù);
TN表示在樣本中為負(fù)向, 被預(yù)測(cè)為負(fù)向的樣本數(shù).
兩種類(lèi)別的召回率分別為:
兩種類(lèi)別的準(zhǔn)確率分別為:
兩種類(lèi)別的F值分別為:
3.2.2分類(lèi)結(jié)果
本文使用20000條人工標(biāo)注的商品評(píng)論作為實(shí)驗(yàn)數(shù)據(jù). 其中1萬(wàn)條好評(píng), 1萬(wàn)條差評(píng), 分別從好評(píng)和差評(píng)商品評(píng)論中取出8000條評(píng)論作為訓(xùn)練集, 2000條評(píng)論作為測(cè)試集, 進(jìn)行模型訓(xùn)練和模型評(píng)估. 模型評(píng)價(jià)指標(biāo)采用Precision、Recall和F1-Measure. 表3為各模型的評(píng)估結(jié)果.
表3 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明, 本文提出的以詞向量為基礎(chǔ)的文本向量化方法無(wú)論是在模型訓(xùn)練速度還是在分類(lèi)效果都有更優(yōu)的效果, 充分證明了本文所提方法的有效性. 商品評(píng)論是一種帶有明顯主觀情感傾向的文本, 傳統(tǒng)的向量空間模型在特征表示中丟失了大量統(tǒng)計(jì)和語(yǔ)義信息, 并且存在著特征稀疏性和高維度的缺點(diǎn). 本文所提出的以詞向量為基礎(chǔ)進(jìn)行文本向量化的方法, 通過(guò)詞向量模型可以將向量控制在一個(gè)較小的維度并有效的解決了傳統(tǒng)向量空間模型中的稀疏性問(wèn)題; 通過(guò)權(quán)重可以保留詞語(yǔ)在文本中的重要性信息.
1 趙妍妍,秦兵等.文本情感分析.軟件學(xué)報(bào),2010,21(8):1834– 1848.
2 張紫瓊,等.互聯(lián)網(wǎng)商品評(píng)論情感分析研究綜述.管理科學(xué)學(xué)報(bào),2010.
3 徐易.基于短文本的分類(lèi)算法研究[碩士學(xué)位論文].上海:上海交通大學(xué),2010.
4 林斌.基于語(yǔ)義技術(shù)的中文信息情感分析研究[碩士學(xué)位論文].哈爾濱:哈爾濱工業(yè)大學(xué),2006.
5 崔志剛.基于電商網(wǎng)站商品評(píng)論數(shù)據(jù)的用戶情感分析[碩士學(xué)位論文].北京:北京交通大學(xué),2014.
6 宋靜靜.中文短文本情感傾向性分析研究[碩士學(xué)位論文].重慶:重慶理工大學(xué),2013.
7 張學(xué)工,等.關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支撐向量機(jī).自動(dòng)化學(xué)報(bào), 2000.
8 Salton G, Wong A, Yang CS. On the specification of term values in automatic indexing. Journal of Documentation, 1973.
9 王素格.基于Web的評(píng)論文本情感分類(lèi)問(wèn)題研究[博士學(xué)位論文].上海:上海大學(xué),2008.
10 Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality. NIPS, 2013.
11 Turian J, Ratinov L, Bengio Y. Word representations: A simple and general method for semi-supervised learning. Meeting of the Association for Computational Linguistics. 2010.
12 吳軍.數(shù)學(xué)之美.第2版.北京:人民郵電出版社,2014.
13 李航.統(tǒng)計(jì)學(xué)習(xí)方法.北京:清華大學(xué)出版社,2012.
14 葉志剛.SVM在文本分類(lèi)中的應(yīng)用[碩士學(xué)位論文].哈爾濱:哈爾濱工程大學(xué),2006.
15 伍岳.基于SVM的文本分類(lèi)應(yīng)用研究[碩士學(xué)位論文].成都:電子科技大學(xué),2014.
16 張國(guó)梁,肖超峰.基于SVM新聞文本分類(lèi)的研究.電子技術(shù), 2011.
Sentiment Analysis Based on Word Vector Model
WEI Guang-Shun1,2, WU Kai-Chao2
1(University of Chinese Academy of Sciences, Beijing 100049, China)2(Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China)
With the development of Internet, text information, such as product review, increases rapidly. The mass text information makes it more difficult to make artificial management. Considering that product reviews are short text, this paper comes up with the method of word vector superposition and weighted word vector. In the result of sentiment analysis, the method is proved effective. Emotional analysis technology can solve the difficulty of artificial classification in the mass of product review, and help users to get information quickly.
emotion analysis; weighted word vector; product review; short text
2016-06-21;
2016-08-18
[10.15888/j.cnki.csa.005655]