常 丹,王玉珍
(1.蘭州財(cái)經(jīng)大學(xué) 信息工程學(xué)院,甘肅 蘭州,730020; 2.蘭州財(cái)經(jīng)大學(xué) 絲綢之路經(jīng)濟(jì)研究院,甘肅 蘭州,730020)
互聯(lián)網(wǎng)技術(shù)的發(fā)展使得電子商務(wù)行業(yè)快速崛起,伴隨著各類購物網(wǎng)站用戶的持續(xù)增長,人們已從過去簡單的信息獲取轉(zhuǎn)變?yōu)橄蚧ヂ?lián)網(wǎng)傳輸自己的觀點(diǎn)看法,從而每天產(chǎn)生數(shù)以萬計(jì)的商品評論。這些呈指數(shù)級增長的評論信息雖然數(shù)據(jù)量龐大,難以梳理,但是很有研究的價(jià)值。文中將以京東和淘寶網(wǎng)站銷售OPPO R11s手機(jī)為例,通過拓展的情感詞典對商品評論進(jìn)行研究,分析用戶對產(chǎn)品不同特征的情感傾向,從而指導(dǎo)用戶的消費(fèi)行為,幫助商家改進(jìn)商品上的不足。
近年來,交互式資源的出現(xiàn),使得情感分析成為熱門、前沿的研究領(lǐng)域。如:龔安,費(fèi)凡[1]以酒店評論數(shù)據(jù)集為語料,在改進(jìn)的情感規(guī)則中融合一元詞、句法等特征,利用信息增益進(jìn)行特征選擇,提高了文本分類的性能和精度;周錦峰[2]等人針對文本局部語義特征,提出一種深度卷積神經(jīng)網(wǎng)絡(luò)模型,并表明這種模型不僅在訓(xùn)練效率和預(yù)測速度上有所提升,而且情感分類的準(zhǔn)確率有所提高;馮興杰[3]等人提出基于卷積神經(jīng)網(wǎng)絡(luò)和注意力模型相結(jié)合的方法對數(shù)據(jù)集進(jìn)行分析,指出這種方法的實(shí)驗(yàn)結(jié)果相較于傳統(tǒng)的機(jī)器學(xué)習(xí)方法有明顯提高;范煒昊[4]等人在情感分析的基礎(chǔ)上構(gòu)建了用戶痛點(diǎn)分析模型,提出用戶痛點(diǎn)指數(shù)計(jì)算公式,對用戶痛點(diǎn)進(jìn)行量化;李桃迎[5]等人以服務(wù)類網(wǎng)購評語為研究對象,構(gòu)建高頻詞共現(xiàn)網(wǎng)絡(luò),為網(wǎng)絡(luò)評語挖掘研究領(lǐng)域提供了新的研究思路;趙剛[6]等人運(yùn)用機(jī)器學(xué)習(xí)方法,設(shè)計(jì)餐飲領(lǐng)域的情感分析模型,通過實(shí)驗(yàn),這種模型更加適用于客戶的情感傾向分析;胡朝舉[7]等人為有效解決傳統(tǒng)的基于注意力的深度學(xué)習(xí)模型所存在的問題,構(gòu)建了融合主題特征的深層注意力的LSTM模型,實(shí)驗(yàn)表明,該模型在情感分析的準(zhǔn)確率和穩(wěn)定性上都有一定的提高;趙志濱[8]等人通過抽取中文產(chǎn)品評論中的維度信息,計(jì)算各維度的維度情感,并提出維度權(quán)值計(jì)算方法,綜合維度情感和維度權(quán)值計(jì)算評論的整體情感。可見,由于商品評論信息研究的重要性,情感分析受到各界學(xué)者的廣泛關(guān)注。但是隨著研究方法的不斷改進(jìn),基于詞典的情感分析方法逐漸不適用于大量文本的分析,主要是因?yàn)樵~典構(gòu)建的難度較大,基準(zhǔn)詞典不適用于所有的文本情感分析。因此文中通過拓展手機(jī)電子設(shè)備領(lǐng)域的情感詞典,并將其應(yīng)用于時(shí)下銷量較好的手機(jī)型號做情感分析。
情感是人對客觀事物是否滿足自己的需要而產(chǎn)生的態(tài)度體驗(yàn),可以表現(xiàn)為人們對于某個事物的評價(jià)、情緒或觀點(diǎn)[9]。在商品評論情感分析中,情感被認(rèn)為等同于用戶對產(chǎn)品的觀點(diǎn)、評價(jià),因此,情感分析又稱意見挖掘,是自然語言處理的范疇之一,涉及到機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、信息檢索等多個研究領(lǐng)域。情感分析主要是對語料集進(jìn)行情感極性分析和情感極性強(qiáng)度分析,文章將主要對商品評論的情感極性進(jìn)行分析,即用戶對商品是否表示積極、消極或中性的情緒。除此之外,情感分析還可根據(jù)文本的不同分為新聞評論分析、產(chǎn)品評論分析、電影評論分析等類型。對這些主觀性評論文本進(jìn)行集成和分析,并根據(jù)上下文語境,計(jì)算文本的情感值,分析產(chǎn)品評論的情感傾向,對商家改進(jìn)產(chǎn)品和用戶選購商品都具有重要意義。
目前,常用的文本情感分析主要是根據(jù)手工標(biāo)注好的詞典,基于傳統(tǒng)的機(jī)器學(xué)習(xí)方法對文本進(jìn)行分類。由于文本情感分析領(lǐng)域是極其敏感的,對于不同領(lǐng)域的產(chǎn)品評論,都有其適應(yīng)的情感分析方法。因此文章基于知網(wǎng)發(fā)布的中文情感詞典,構(gòu)建適合手機(jī)評論的用戶詞典對商品評論進(jìn)行分析,即建立情感詞典,提取情感單元,計(jì)算各評論文本的情感傾向值。
由于文中以手機(jī)評論數(shù)據(jù)集為語料進(jìn)行分析,因此,基于手機(jī)評論的詞典,不僅要包含通用的情感詞典,還要從產(chǎn)品屬性層面上細(xì)化,補(bǔ)充網(wǎng)絡(luò)流行用語,拓展相關(guān)詞典,這樣才能提高情感分類的準(zhǔn)確度。
情感詞典構(gòu)建方法:
第一步:以How Net 2007版情感詞典提供的正面情感詞、負(fù)面情感詞、正面評價(jià)詞、負(fù)面評價(jià)詞等為基礎(chǔ)拓展詞典;
第二步:通過經(jīng)驗(yàn)和對數(shù)據(jù)集的觀察,人工采集規(guī)則,其中主要的幾種規(guī)則有:“名詞+形容詞”及“名詞+副詞+形容詞”、“動名詞+形容詞”及“動詞+名詞”等;
第三步:對語料集進(jìn)行分句處理,即以“。”“!”“?”等對評論文本進(jìn)行切分;
第四步:利用分詞系統(tǒng)對評論文本進(jìn)行分詞和詞性標(biāo)注,依據(jù)收集到的規(guī)則找出新的情感詞;
第五步:根據(jù)兩個詞的共現(xiàn)程度PMI[10]判斷情感詞的情感傾向,當(dāng)兩個詞與基準(zhǔn)情感詞的PMI差值大于某一閾值,則較大的一方的情感極性為新詞的情感極性;
(1)
其中w1,w2表示兩個不同的詞語。
第六步:將新詞錄入情感詞典中。
對于商品評論文本來說,影響評論情感傾向的不僅是情感詞,還包括程度副詞、否定詞等,因此,文中使用情感值計(jì)算函數(shù)[11](公式2),通過情感詞和修飾詞的綜合計(jì)算結(jié)果,計(jì)算商品評論的情感值,從而分析該屬性的情感傾向。
(2)
其中F表示情感極值,f(xi)表示第i個情感詞極值,aij表示情感詞xi對應(yīng)的程度副詞的權(quán)值。
文中分析的數(shù)據(jù)主要來源于京東和淘寶的網(wǎng)站銷售的OPPO R11s手機(jī)的評論數(shù)據(jù)。由于OPPO R11s手機(jī)上市以來,廣受歡迎,但對于這個型號的手機(jī)屬性還存在爭論,因此從京東、淘寶這兩家訪問量較大的國內(nèi)購物網(wǎng)站上,通過八爪魚數(shù)據(jù)采集器收集了13883條評論數(shù)據(jù),通過分析用戶評論信息,挖掘用戶對手機(jī)各項(xiàng)特征的情感傾向。
商品評論是用戶對產(chǎn)品的主觀性評價(jià),在表達(dá)上具有隨意性,數(shù)據(jù)容易產(chǎn)生噪聲。因此,文章首先對評論文本進(jìn)行預(yù)處理,即去除噪聲和重復(fù)性文本,如在原始數(shù)據(jù)中,由于用戶未對商品進(jìn)行評價(jià),系統(tǒng)會默認(rèn)給出“此用戶未及時(shí)評價(jià)系統(tǒng)默認(rèn)為好評”,這類評價(jià)信息研究的意義不大,因此在數(shù)據(jù)預(yù)處理中去除這一類型的文本。然后進(jìn)行分詞、詞性標(biāo)注和詞頻統(tǒng)計(jì)等工作,目前常用的分詞工具主要有NLPIR中文分詞系統(tǒng)、哈工大的LTP語言平臺等,文中主要是通過結(jié)巴分析系統(tǒng)對評論文本進(jìn)行分詞和詞性標(biāo)注,主要是因?yàn)榻Y(jié)巴分詞系統(tǒng)可以直接在python中導(dǎo)入結(jié)巴分詞模塊,并且分詞速度較快。最后,對分詞結(jié)果進(jìn)行詞頻統(tǒng)計(jì),部分結(jié)果如表 1所示:
表1 手機(jī)部分詞頻統(tǒng)計(jì)結(jié)果
說明:n-名詞,a-形容詞,v-動詞,d-副詞,c-連詞
通過以上數(shù)據(jù)預(yù)處理,將分詞后的詞頻統(tǒng)計(jì)結(jié)果按由大到小的順序進(jìn)行排序,并選擇排名前14的手機(jī)特征指標(biāo)詞,對手機(jī)指標(biāo)進(jìn)行分類,得到五個類別指標(biāo),見表2。
表2 手機(jī)特征指標(biāo)分類表
對數(shù)據(jù)進(jìn)行特征提取以及情感極性計(jì)算,為了更精確的計(jì)算用戶對不同特征的情感傾向,文章將程度副詞考慮在情感值計(jì)算中,給不同程度的副詞賦予相應(yīng)的權(quán)值,文章參考已有的研究成果,具有權(quán)值大小見表3,情感分析所有程序通過python 3.6實(shí)現(xiàn)。
表3 程度副詞權(quán)值設(shè)置表
其中,most表示程度級別最大,代表詞有“超級,過于”等,very代表詞有“很”,“非?!钡龋琺ore代表詞有“比較”,“還”等,ish代表詞有“稍微”,“略微”,insufficiently代表詞“不怎么”,inverse是對整體的文本評論的情感傾向做了反轉(zhuǎn),因此賦予負(fù)值。
對預(yù)處理后的9997條有效數(shù)據(jù)進(jìn)行分析,得到的手機(jī)特征詞情感分析結(jié)果如圖1所示。
圖1 特征詞正負(fù)平均情感占比Fig.1 Positive and negative average emotion ratios of characteristic words
由圖1可知,對于OPPO R11s這款手機(jī)來說,用戶對手機(jī)的總體評價(jià)較好,尤其是手機(jī)的外觀和拍照功能,積極評論占比超過85%,得到了用戶的普遍好評。而手機(jī)的續(xù)航,即充電和電池性能方面,以及手機(jī)的性價(jià)比相對來說評價(jià)較弱,這些特征更應(yīng)該引起商家的足夠重視。通過進(jìn)一步分析用戶評論,能夠發(fā)現(xiàn)對于oppo R11s手機(jī)的續(xù)航這一特征來說,主要是由于手機(jī)電池不耐用,并且在充電的過程中手機(jī)會發(fā)熱,導(dǎo)致用戶產(chǎn)生消極的情感。而性價(jià)比方面,部分用戶給出了“手機(jī)性價(jià)比不高”,“不是性價(jià)比之選”等消極評論。主要是由于這款手機(jī)在上市時(shí),價(jià)格較高,除了拍照功能較好,外觀漂亮外,其他性能并不出眾。而且通過詞頻統(tǒng)計(jì),發(fā)現(xiàn)這款手機(jī)的主要用戶為女士居多,可見對于男士來說這款手機(jī)并不是最好的選擇。
通過上述分析,建議商家能夠延續(xù)在外觀和拍照上的優(yōu)勢,優(yōu)化手機(jī)的電池,解決手機(jī)電池的耗電以及充電時(shí)手機(jī)的發(fā)熱問題,針對不同的用戶群體制定相應(yīng)的精準(zhǔn)營銷策略,提高客戶的滿意度,進(jìn)而使得商家獲得更高的收益。
對商品評論進(jìn)行情感分析和意見挖掘,不僅能指導(dǎo)用戶的購買行為,而且能夠幫助商家更好地了解用戶需求,從而改進(jìn)產(chǎn)品。文中基于拓展的情感詞典對手機(jī)評論進(jìn)行情感分析,這種情感詞典的構(gòu)建和情感值計(jì)算方法不僅適用于這種型號的手機(jī)評論情感分析,對于同類型的其他商品來說,同樣也具有參考價(jià)值。