劉鋼,張維石
(大連海事大學(xué),大連 116026)
基于決策樹的網(wǎng)民評(píng)價(jià)情感分析
劉鋼,張維石
(大連海事大學(xué),大連 116026)
通過(guò)擴(kuò)充情感詞典詞基數(shù),新建中立詞詞典,引入網(wǎng)絡(luò)流行詞等方式豐富情感詞典,提高分詞后情感詞匹配的準(zhǔn)確性;以某評(píng)價(jià)類網(wǎng)站網(wǎng)民評(píng)論作為原始數(shù)據(jù)進(jìn)行分詞,提取相應(yīng)的正向情感分?jǐn)?shù),負(fù)向情感分?jǐn)?shù),中立情感詞個(gè)數(shù),評(píng)論情感總分值等特征,通過(guò)對(duì)連續(xù)數(shù)據(jù)的規(guī)約提煉離散屬性,按照信息增益最大原則生成決策樹進(jìn)行評(píng)論的情感分類,去除小概率節(jié)點(diǎn)后進(jìn)行兩次實(shí)驗(yàn),對(duì)好評(píng)的識(shí)別率達(dá)到90%,對(duì)差評(píng)的識(shí)別率達(dá)到92%。對(duì)中評(píng)的識(shí)別率達(dá)到75%。
情感詞典;特征;信息增益;決策樹
近年來(lái),類似淘寶網(wǎng)、大眾點(diǎn)評(píng)、美團(tuán)網(wǎng)等帶有評(píng)價(jià)類功能的網(wǎng)站迅速崛起,用戶在購(gòu)買商品后分享自己對(duì)商品的體驗(yàn)成為了其他用戶購(gòu)買同類商品的重要參考指標(biāo)。網(wǎng)絡(luò)不再僅僅是人們獲取信息的方式,同時(shí)也成為了人們表達(dá)情感的重要平臺(tái)[1]。網(wǎng)民可以通過(guò)發(fā)布評(píng)價(jià)來(lái)抒發(fā)自己對(duì)產(chǎn)品的滿意程度,表達(dá)自己的情感,這些帶有情感傾向的語(yǔ)料形成了海量的情感文本信息。通過(guò)對(duì)這些文本信息的分析可得出一款產(chǎn)品的總體用戶滿意度,使用戶對(duì)產(chǎn)品有更加直觀的了解,具有一定的現(xiàn)實(shí)意義,同時(shí)也利于商家對(duì)自身產(chǎn)品的改進(jìn),具有一定的商業(yè)價(jià)值[2]。
文本情感分析是指將帶有感情色彩的文本信息進(jìn)行處理后,對(duì)處理結(jié)果進(jìn)行歸納總結(jié)。國(guó)外很多學(xué)者在文本情感分析上做了深入的研究,文獻(xiàn)[3]采用了情感詞典,通過(guò)情感評(píng)價(jià)詞的極性判斷情感。文獻(xiàn)[4]采用了支持向量機(jī)作為分類模型,為機(jī)器學(xué)習(xí)在情感分析中的應(yīng)用提供了經(jīng)驗(yàn)。文獻(xiàn)[5]提出了對(duì)有監(jiān)督學(xué)習(xí)的訓(xùn)練集自動(dòng)標(biāo)注的自舉方法。
我國(guó)學(xué)者在情感分析方面也進(jìn)行了一些相關(guān)研究。文獻(xiàn)[6]采用了詞向量模型進(jìn)行情感分析。文獻(xiàn)[7]采用了支持向量機(jī)的方式對(duì)酒店客戶評(píng)論進(jìn)行了分析,并且對(duì)評(píng)論中表情進(jìn)行了處理。文獻(xiàn)[8]提出了兩種基于HowNet詞典的語(yǔ)義傾向性計(jì)算方法,用來(lái)計(jì)算詞語(yǔ)與褒貶義基準(zhǔn)詞之間的相關(guān)性。
然而因?yàn)檎Z(yǔ)言習(xí)慣的不同,國(guó)外的一些研究方法對(duì)處理中文文本存在一定的不適用性,無(wú)法滿足中文情感分析的需要,而國(guó)內(nèi)一些研究大多基于書面語(yǔ),缺少對(duì)“評(píng)價(jià)”這類偏向口語(yǔ)化的語(yǔ)料的分析,只對(duì)評(píng)價(jià)做出“好評(píng)”和“差評(píng)”的區(qū)分,忽略了評(píng)價(jià)體系中“中評(píng)”的區(qū)分,影響最終實(shí)驗(yàn)效果。本文采用臺(tái)灣大學(xué)情感詞典作為基礎(chǔ)情感詞典,在此基礎(chǔ)上擴(kuò)充評(píng)價(jià)類語(yǔ)料中常出現(xiàn)的情感詞語(yǔ),并且找出部分帶有中立傾向的詞語(yǔ)生成中立詞詞典,同時(shí)還對(duì)應(yīng)建立了程度副詞詞表,通過(guò)匹配結(jié)果得到不同屬性構(gòu)建決策樹,最終完成情感分析。
圖1 用戶原始評(píng)論
本文采用的分詞工具是通過(guò)對(duì)百度自然語(yǔ)言處理的開放API進(jìn)行二次開發(fā)形成的分詞工具,通過(guò)該分詞工具進(jìn)行文本處理分詞,分詞前后的文本如圖1和圖2所示。
圖2 分詞后的用戶評(píng)論
通過(guò)對(duì)臺(tái)灣大學(xué)NTUSD-簡(jiǎn)體中文情感詞典的研究發(fā)現(xiàn),該詞典中書面語(yǔ)較多,而網(wǎng)民在對(duì)商品或酒店等評(píng)價(jià)時(shí)往往會(huì)帶有較多的口語(yǔ)詞匯,如“還可以”,“就那樣”,“挺不錯(cuò)”等,與臺(tái)灣大學(xué)的情感詞典匹配率較低。同時(shí),隨著互聯(lián)網(wǎng)的發(fā)展,人們的日常生活中融入了很多網(wǎng)絡(luò)流行詞,這些詞匯也越來(lái)越多的出現(xiàn)在網(wǎng)民評(píng)價(jià)中,如形容產(chǎn)品品質(zhì)優(yōu)秀的詞匯“點(diǎn)贊”,“666”。代表對(duì)購(gòu)買產(chǎn)品失望的網(wǎng)絡(luò)詞匯“心塞”等。還有一些流行詞和舊詞發(fā)音相同,常常用來(lái)做舊詞的替代品,比如很多網(wǎng)民會(huì)使用“辣雞”來(lái)代替舊詞“垃圾”,表明對(duì)某次消費(fèi)的體驗(yàn)很失望。這樣的詞匯只靠傳統(tǒng)的情感詞典將無(wú)法覆蓋到,降低情感詞的匹配率,影響決策分類效果。本文在對(duì)1457條樣本評(píng)論切詞后,通過(guò)人工標(biāo)注的方法,將一些評(píng)論中較常出現(xiàn)的口語(yǔ)詞匯和新出現(xiàn)的流行詞匯,網(wǎng)絡(luò)熱詞等加入了情感詞典,實(shí)現(xiàn)了對(duì)情感詞典的擴(kuò)充,提高了情感詞匹配度。
為了實(shí)現(xiàn)對(duì)中評(píng)的判定,本文還構(gòu)建了中立詞詞典,中立詞詞典的構(gòu)建基于人工標(biāo)注為中評(píng)的一批評(píng)論,該批評(píng)論分詞后可找出一些形容產(chǎn)品品質(zhì)一般的詞語(yǔ),如一般,差強(qiáng)人意等詞匯。表1為部分中立詞。
除了將標(biāo)注的正向情感詞和負(fù)向情感詞加入情感詞典以及構(gòu)建中立詞詞典外,本文還建了程度副詞詞表,對(duì)于分詞后評(píng)論,如果評(píng)論中含有程度副詞,則會(huì)對(duì)該句子的分值造成一定影響,這是由于程度副詞會(huì)加深或降低情感詞的感情程度,如非常,相當(dāng),十分等程度副詞,表明了網(wǎng)民對(duì)于其評(píng)價(jià)產(chǎn)品的高情感,需要做相應(yīng)的加權(quán)處理,通過(guò)對(duì)程度副詞的判別對(duì)情感分?jǐn)?shù)進(jìn)行加權(quán),提高下一個(gè)情感詞對(duì)句子分值的影響,使最終的情感分值更加合理。程度副詞的權(quán)值分別為0.5,1,1.5和2。程度詞表如表2所示。
表1 部分中立詞詞表
表2 程度副詞詞表
本文將網(wǎng)民的一條評(píng)價(jià)作為一個(gè)基準(zhǔn)點(diǎn),切詞后進(jìn)行情感詞識(shí)別,在流程處理前每條評(píng)論的正向情感分?jǐn)?shù),負(fù)向情感分?jǐn)?shù),以及總分?jǐn)?shù)都為0。在遍歷過(guò)程中,如果程度副詞之后出現(xiàn)了情感詞,則該次匹配到的情感詞分?jǐn)?shù)為原始情感分?jǐn)?shù)乘以程度副詞權(quán)值,比如“他家牛排不但用料好,而且廚師調(diào)味恰到好處,來(lái)他家吃牛排真是一個(gè)十分享受的過(guò)程”,其中程度副詞“十分”之后出現(xiàn)了正向情感詞“享受”,則該次匹配的正向情感分?jǐn)?shù)將從原來(lái)的+1變?yōu)?2。
圖3是根據(jù)擴(kuò)詞后的情感詞典,中立詞詞典以及程度副詞詞表進(jìn)行情感屬性提取的流程圖。其中mark代表加權(quán)標(biāo)志位,posScore代表正向情感分?jǐn)?shù),negScore代表負(fù)向情感分?jǐn)?shù),weight代表加權(quán)后的分?jǐn)?shù)。
圖3 屬性提取流程圖
評(píng)論經(jīng)過(guò)分詞處理后進(jìn)行情感詞典匹配,每條評(píng)論中的正向情感分值由該條評(píng)論中所有正向情感詞加權(quán)后相加得出,設(shè)Pos為正向情感分值,n為匹配到的數(shù)量,score為原始分值則:
同理,每條評(píng)論中的負(fù)向情感分值由該條評(píng)論中所有負(fù)向情感詞加權(quán)后相加得出設(shè)Neg為負(fù)向情感分值,則:
其中weight為每個(gè)情感詞所對(duì)應(yīng)的權(quán)重,如果該情感詞前一個(gè)詞并非程度副詞,則weight等于1。設(shè)中立詞個(gè)數(shù)為Midd,中立詞的weight均為一,則:
除了匹配到的數(shù)據(jù)外,本文引入了情感總分值的概念作為一個(gè)分類屬性,情感總分值為正向情感分值減負(fù)向情感分值,設(shè)情感總分值為Tscore,則:
Tscore=Pos-Neg
情感總分值越大則該條評(píng)價(jià)為正面評(píng)價(jià)的概率就越大,分值越小則該條評(píng)論為負(fù)面評(píng)價(jià)的概率就越大。將樣本評(píng)論按照?qǐng)D3的流程圖處理后,原始評(píng)論將生成表3的文件
表3 情感詞典匹配后生成文件
決策樹算法源自機(jī)器學(xué)習(xí),用以挖掘數(shù)據(jù)內(nèi)在的規(guī)律,其基本思想為貪心算法[9]。本文用的決策樹算法是ID3算法。ID3算法中首先要找到最有判別力的屬性,把樣本分為多個(gè)子集,對(duì)于每個(gè)子集再次選擇最有判別力的屬性進(jìn)行劃分,直到所有子集僅包含同一類型的數(shù)據(jù)為止,最后得到一棵決策樹。
在對(duì)決策樹的任意一個(gè)非葉子節(jié)點(diǎn)劃分之前需要計(jì)算每一個(gè)屬性所帶來(lái)的信息增益,信息增益越大,樣本區(qū)分能力越強(qiáng),該屬性越重要。按照信息論的定義,事件S的全概率劃分為(S1,S2…Sn),每部分發(fā)生的概率為(p1,p2…pn),則信息熵的計(jì)算公式為:
在經(jīng)過(guò)情感詞典匹配后,原始的評(píng)論預(yù)料將生成多維度的屬性信息,選取四個(gè)維度的信息進(jìn)行決策樹構(gòu)建,分別是評(píng)論分值,評(píng)論正向分?jǐn)?shù),評(píng)論負(fù)向分?jǐn)?shù),評(píng)論中立詞個(gè)數(shù)。通過(guò)對(duì)每個(gè)屬性的歸一化處理,將屬性處理成離散的分類條件,可以獲取比原始數(shù)據(jù)范圍更小的屬性且新屬性不會(huì)影響數(shù)據(jù)挖掘效果。轉(zhuǎn)換規(guī)則為評(píng)論總分?jǐn)?shù)大于0用A表示,分?jǐn)?shù)等于0用B表示,分?jǐn)?shù)小于0用C表示;正向情感分?jǐn)?shù)和負(fù)向情感分?jǐn)?shù)大于4用A表示,大于等于2小于4用B表示,大于等于0小于2用A表示。中立詞個(gè)數(shù)大于2用A表示,大于0用B表示,等于0用C表示。部分?jǐn)?shù)據(jù)轉(zhuǎn)換前后如表4,5所示。其中人工標(biāo)注結(jié)果P代表好評(píng),N代表差評(píng),M代表中評(píng)。
表4 歸一化前數(shù)據(jù)
表5 歸一化后數(shù)據(jù)
以表5中的數(shù)據(jù)為樣本,采用ID3算法構(gòu)建決策樹:
(1)計(jì)算信息熵。在1457個(gè)人工標(biāo)注樣本中共有好評(píng)523個(gè),中評(píng)185個(gè),差評(píng)749個(gè)。則:
Entropy(S)=1.401bit
(2)計(jì)算信息增益
以“評(píng)論總分值”為例,信息增益的計(jì)算如下:
樣本中分?jǐn)?shù)為A數(shù)據(jù)589個(gè),其中標(biāo)注為好評(píng)的個(gè)數(shù)為423個(gè),Entropy(v1)=0.8579
樣本中分?jǐn)?shù)為B數(shù)據(jù)296個(gè),其中標(biāo)注為中評(píng)的個(gè)數(shù)為47個(gè),Entropy(v2)=0.6313
樣本中分?jǐn)?shù)為C數(shù)據(jù)572個(gè),其中標(biāo)注為差評(píng)的個(gè)數(shù)為497個(gè),Entropy(v3)=0.5604
從上述決策樹中提取分類規(guī)則進(jìn)行實(shí)驗(yàn)。
實(shí)驗(yàn)一:另選900條該網(wǎng)站人工標(biāo)注評(píng)論,其中好評(píng)300條,差評(píng)300條,中評(píng)300條進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示。
表6 實(shí)驗(yàn)一結(jié)果
實(shí)驗(yàn)二:隨機(jī)另選1700條該網(wǎng)站評(píng)論進(jìn)行人工標(biāo)注,標(biāo)注結(jié)果為好評(píng)1183條,中評(píng)134條,差評(píng)383條,實(shí)驗(yàn)結(jié)果如表7所示。
表7 實(shí)驗(yàn)二結(jié)果
圖4 評(píng)論情感判別決策樹
本文以某評(píng)價(jià)類網(wǎng)站的原始評(píng)論數(shù)據(jù)作為研究對(duì)象,先對(duì)部分訓(xùn)練數(shù)據(jù)進(jìn)行切詞,尋找評(píng)論中高頻出現(xiàn)的且不在原始情感詞典中的情感詞,并且加入網(wǎng)絡(luò)流行詞,進(jìn)行情感詞典的擴(kuò)充,提高情感詞匹配率,然后對(duì)匹配數(shù)據(jù)進(jìn)行歸一化處理,用四個(gè)維度的屬性構(gòu)建決策樹,使用決策樹來(lái)判定評(píng)論的最終情感,取得了不錯(cuò)的效果。該研究可使網(wǎng)民對(duì)某一品牌產(chǎn)生更直觀的認(rèn)識(shí),對(duì)網(wǎng)民在生活中的產(chǎn)品選擇提供指導(dǎo)。在實(shí)驗(yàn)中發(fā)現(xiàn),好評(píng)和差評(píng)的準(zhǔn)確率相對(duì)較高,這與情感詞典中的正向詞,負(fù)向詞較多有一定關(guān)系,即正向情感詞和負(fù)向情感詞的匹配率較高,可做出識(shí)別性較強(qiáng)的判別屬性,同時(shí)發(fā)現(xiàn)中評(píng)的準(zhǔn)確率較低,下一步將對(duì)中評(píng)展開研究,以搜索一種較好的判別方法識(shí)別中評(píng)。
[1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848
[2]張珊.基于表情圖片與情感詞的中文微博情感分析
[3]Redman T C.The Impact of Poor Data Quality on the Typical Enterprise[J].Communications of the Acm,1998,41(2):49-71.
[4]Herzog T N,Scheuren F J,Winkler W E.Data Quality and Record Linkage Techniques[J].Journal of the American Statistical Association,2008,103(482):881-881.
[5]Riloff E,Wiebe J.Learning Extraction Patterns for Subjective Expressions[C].Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2003:105-112.
[6]魏廣順,吳開超.基于詞向量模型的情感分析[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(3):182-186.
[7]石強(qiáng)強(qiáng),趙應(yīng)丁,楊紅云.基于SVM的酒店客戶評(píng)論情感分析[J].計(jì)算機(jī)與現(xiàn)代化,2017(3):117-121.
[8]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語(yǔ)義傾向計(jì)算[C].全國(guó)計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議.2005:14-20.
[9]韓麗娜,韓改寧.決策樹算法在學(xué)生成績(jī)分析中的應(yīng)用研究[J].電子設(shè)計(jì)工程,2017,25(2):18-21.
Emotion Analysis of Internet User's Reviews Based on Decision Tree
LIU Gang,ZHANG Wei-shi
(Dalian Maritime University,Dalian 116026)
Enriches the emotional dictionary and improves the accuracy of matching emotional words after word segmentation by expanding the emotional dictionary word base,building neutral dictionary and leading into network buzzwords.On the other hand,Internet user's reviews of evaluation website are used as the original data.After extracting the amount of text features,such as positive emotion scores,negative emotion scores,neutral emotional words,and the total score of emotion Comment,gets the classification of Comments on the emotion through refining the discrete attributes for continuous data specification and generates a decision tree according to the maximum gain of information.Two experiments are performed after removing the small probability nodes,the recognition rate of praise and bad review reach 90%and 92%.The recognition rate of the medium evaluation reaches 75%.
Emotional Dictionary;Feature;Information Gain;Decision Tree
中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資助This work is supported by the Science and Technology Funds of Dalian(Grant No.2015A11GX010)and the Fundamental Research Funds for the Central Universities(Grant No.3132016308)
1007-1423(2017)32-0015-05
10.3969/j.issn.1007-1423.2017.32.004
劉鋼(1993-),男,山西長(zhǎng)治人,研究方向?yàn)檐浖夹g(shù)與方法
2017-09-21
2017-10-20