楊嘉怡 李曉英 何首武
基于手機(jī)評(píng)論文本的用戶(hù)情感分析研究
楊嘉怡 李曉英 何首武
(桂林理工大學(xué)南寧分校,廣西 南寧 530001)
以華為Mate40與蘋(píng)果iPhone13兩款手機(jī)為研究對(duì)象,通過(guò)Python爬蟲(chóng)技術(shù)采集電商平臺(tái)的用戶(hù)評(píng)論信息,對(duì)評(píng)論數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、文本分詞和去停用詞等預(yù)處理后,采用SnowNLP對(duì)評(píng)論文本進(jìn)行情感分析。最后,通過(guò)LDA模型對(duì)正、負(fù)面評(píng)價(jià)進(jìn)行主題分析,并將分析結(jié)果可視化展示,以期為手機(jī)廠商改進(jìn)產(chǎn)品及服務(wù)質(zhì)量提供參考建議。
手機(jī)評(píng)論;情感分析;SnowNLP;LDA主題模型
文本情感分析是對(duì)具有情感色彩的文本進(jìn)行分析、處理、歸納和推理預(yù)測(cè)的過(guò)程,在新聞傳播、輿論管理、觀點(diǎn)分析等問(wèn)題中展示了不容忽視的價(jià)值[1,2]。隨著線上購(gòu)物平臺(tái)的迅速發(fā)展和網(wǎng)絡(luò)購(gòu)物的普及,越來(lái)越多的人群選擇在網(wǎng)上購(gòu)買(mǎi)手機(jī)。因此,網(wǎng)絡(luò)平臺(tái)中存在著海量消費(fèi)者對(duì)手機(jī)的評(píng)價(jià)信息,其中包括對(duì)產(chǎn)品質(zhì)量、服務(wù)等的主觀感受,反映了人們對(duì)產(chǎn)品的態(tài)度、立場(chǎng)和建議。而對(duì)于各大手機(jī)廠商來(lái)說(shuō),隨著智能手機(jī)市場(chǎng)競(jìng)爭(zhēng)日益激烈,如何從在線評(píng)論信息中了解消費(fèi)者的真實(shí)需求,進(jìn)而不斷提升產(chǎn)品質(zhì)量與品牌的競(jìng)爭(zhēng)力,成為各手機(jī)廠商亟待解決的難題。因此,對(duì)在線手機(jī)評(píng)論數(shù)據(jù)進(jìn)行情感分析,具有非常重要的現(xiàn)實(shí)意義[3,4]。
本文通過(guò)對(duì)京東商城中手機(jī)的評(píng)論數(shù)據(jù)進(jìn)行情感分類(lèi),挖掘出不同用戶(hù)的情感傾向,分析用戶(hù)的需求、意見(jiàn)以及產(chǎn)品的優(yōu)缺點(diǎn),為手機(jī)廠商及電商平臺(tái)改進(jìn)產(chǎn)品質(zhì)量,提高用戶(hù)體驗(yàn)提供參考依據(jù)。
本文從原始手機(jī)評(píng)論數(shù)據(jù)的獲取、預(yù)處理、文本情感分類(lèi)建模、分析結(jié)果展示等方面,進(jìn)行文本情感分析研究,流程如圖1所示,主要步驟如下:(1)對(duì)電商平臺(tái)中的手機(jī)評(píng)論信息進(jìn)行采集;(2)對(duì)評(píng)論文本進(jìn)行數(shù)據(jù)清洗、分詞、去停用詞等預(yù)處理;(3)基于SnowNLP對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行情感分析,將評(píng)論文本劃分為正面評(píng)價(jià)數(shù)據(jù)與負(fù)面評(píng)價(jià)數(shù)據(jù);(4)分別對(duì)正、負(fù)面評(píng)價(jià)數(shù)據(jù)進(jìn)行LDA主題分析,分析用戶(hù)的關(guān)注點(diǎn)及產(chǎn)品的優(yōu)缺點(diǎn),據(jù)此對(duì)手機(jī)廠商提出合理建議。
圖1 手機(jī)評(píng)論數(shù)據(jù)的情感分析流程
SnowNLP是Python類(lèi)庫(kù)中專(zhuān)門(mén)針對(duì)中文進(jìn)行自然語(yǔ)言處理的庫(kù),其主要功能涉及到中文分詞、情感分析、文本分類(lèi)等。SnowNLP自帶了中文正負(fù)情感的訓(xùn)練集,使用樸素貝葉斯原理來(lái)訓(xùn)練和預(yù)測(cè)數(shù)據(jù)。其情感分析的過(guò)程是,首先讀取待分類(lèi)的文本內(nèi)容,對(duì)文本進(jìn)行分詞,去除停用詞;計(jì)算每個(gè)詞出現(xiàn)的頻數(shù),計(jì)算文本的先驗(yàn)概率和后驗(yàn)概率,選擇概率較大的類(lèi)別[5]。使?SnowNLP計(jì)算情感值,核心代碼如下:
from snownlp import SnowNLP
senti=SnowNLP(data).sentiments
調(diào)用SnowNLP(data)創(chuàng)建了一個(gè)SnowNLP類(lèi)實(shí)例,將需要進(jìn)行情感分析的數(shù)據(jù)data,作為參數(shù)傳入函數(shù)。調(diào)用SnowNLP(data).sentiments,調(diào)用貝葉斯模型,進(jìn)行情感分析,得出分析結(jié)果。
在進(jìn)行情感分析之前,根據(jù)業(yè)務(wù)需求確定是否要重新訓(xùn)練模型。本研究中分析對(duì)象為手機(jī)評(píng)論數(shù)據(jù),直接采用已訓(xùn)練好的模型,無(wú)需重新訓(xùn)練模型。
隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型,是一種文檔主題生成模型,即認(rèn)為每一篇文檔的每一個(gè)詞都是通過(guò)“一定的概率選擇了某個(gè)主題,并從這個(gè)主題中以一定的概率選擇了某個(gè)詞語(yǔ)”[6]。LDA模型由三層結(jié)構(gòu)組成,分別是文檔(d)、主題(z)、詞語(yǔ)(w),也被稱(chēng)為三層貝葉斯概率模型。通過(guò)LDA主題模型,能夠挖掘數(shù)據(jù)集中的潛在主題,進(jìn)而分析用戶(hù)對(duì)產(chǎn)品的關(guān)注點(diǎn)及相關(guān)特征詞。
在LDA模型中,詞語(yǔ)(w)是文檔的基本單元,由N個(gè)詞構(gòu)成的評(píng)論記為d=(w1, w2,…, wN)。假設(shè)某一商品的評(píng)論集D由M篇評(píng)論構(gòu)成,記為D=(d1, d2,…, dM)。M篇評(píng)論分布著K個(gè)主題,記為Zi=(i=1, 2,…, K)。記α和β為狄利克雷函數(shù)的先驗(yàn)參數(shù),θ為主題在文檔中的多項(xiàng)分布的參數(shù),φ為詞語(yǔ)在主題中的多項(xiàng)式分布參數(shù)。LDA模型結(jié)構(gòu)如圖2所示。LDA主題模型是一種無(wú)監(jiān)督學(xué)習(xí)算法,需要的僅僅是評(píng)論集與指定主題的數(shù)量K,因此,在訓(xùn)練時(shí)避免了費(fèi)時(shí)費(fèi)力的人工標(biāo)注訓(xùn)練集。
圖2 LDA主題模型結(jié)構(gòu)圖
“蘋(píng)果iPhone13”與“華為Mate40”兩款手機(jī)市場(chǎng)份額高,評(píng)論數(shù)據(jù)充足,因此,本文選取京東商城這兩款手機(jī)為研究對(duì)象,使用python中的requests庫(kù)進(jìn)行數(shù)據(jù)采集。首先,在該網(wǎng)站找到評(píng)論區(qū)域內(nèi)請(qǐng)求頁(yè)面的網(wǎng)址Request URL。通過(guò)request.get()方法向服務(wù)器的url對(duì)象發(fā)送請(qǐng)求,并返回包含服務(wù)器資源的Response對(duì)象。接著,通過(guò)response.json()返回結(jié)果的JSON對(duì)象,將獲取到的評(píng)論數(shù)據(jù)轉(zhuǎn)化為json格式。將所得到的json格式字符轉(zhuǎn)換成字典類(lèi)型,這樣便于提取出評(píng)論中的信息。最后,通過(guò)遍歷page值循環(huán)翻頁(yè),并將評(píng)論數(shù)據(jù)寫(xiě)入csv文件中。本文爬取評(píng)論等級(jí)從1星到5星的數(shù)據(jù)記錄,采集了用戶(hù)編號(hào)、用戶(hù)評(píng)分、評(píng)論內(nèi)容、評(píng)論時(shí)間等4個(gè)字段,數(shù)據(jù)結(jié)構(gòu)如表1所示。
表1 評(píng)論信息的數(shù)據(jù)結(jié)構(gòu)
字段名稱(chēng)示例字段描述 userId100011用戶(hù)編號(hào) score5用戶(hù)評(píng)分 content很精致,質(zhì)量非常好,很滿(mǎn)意的一次購(gòu)物。謝謝店家!評(píng)論內(nèi)容 creationTime2021-01-24 13:20評(píng)論時(shí)間
爬取的手機(jī)評(píng)論信息包含著大量的重復(fù)數(shù)據(jù),并且其中夾雜許多數(shù)字與字母,如果直接對(duì)這些低價(jià)值或無(wú)價(jià)值的信息進(jìn)行情感分析,挖掘結(jié)果會(huì)有很大的誤差。另外,由于評(píng)論主要圍繞京東商城中的手機(jī)進(jìn)行,其中“京東”“手機(jī)”“華為”“蘋(píng)果”等詞出現(xiàn)的頻次很大,但是對(duì)分析目標(biāo)意義不大。因此,在對(duì)文本挖掘之前,需要對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、去重等預(yù)處理操作。經(jīng)過(guò)數(shù)據(jù)預(yù)處理,共獲取iPhone13有效評(píng)論數(shù)據(jù)1705條,Mate40有效記錄2382條。
在預(yù)處理后的數(shù)據(jù)中提取評(píng)論字段content,使用SnowNLP進(jìn)行情感預(yù)測(cè)。通過(guò)SnowNLP情感分析,將評(píng)論數(shù)據(jù)生成一個(gè)0~1上的情緒評(píng)分,如圖3所示。這里假設(shè),其中評(píng)分大于等于0.8的為正面評(píng)論,小于等于0.3的為負(fù)面評(píng)論,其余為中性評(píng)論,將數(shù)據(jù)分別按正面、負(fù)面存儲(chǔ)在相應(yīng)的文本文件中。所得的iPhone13與Mate40的正面、負(fù)面評(píng)論分布如表2所示。由圖3與表2可知,Mate40評(píng)論中的正面、負(fù)面評(píng)論分布相差不大,而iPhone13正面評(píng)論的數(shù)量明顯比負(fù)面評(píng)價(jià)的數(shù)量少很多。
圖3 SnowNLP情感分析結(jié)果
表2 手機(jī)評(píng)論數(shù)據(jù)的情感分布
品牌iPhone13Mate40 評(píng)論數(shù)量(條)17052382 正面評(píng)論數(shù)量4021014 比例24%43% 負(fù)面評(píng)論數(shù)量9661037 比例57%44%
根據(jù)SnowNLP情感分析,選擇兩款手機(jī)情感分類(lèi)后的正面、負(fù)面評(píng)論數(shù)據(jù)集,對(duì)文本進(jìn)行jieba分詞和過(guò)濾停用詞,使用Python的gensim庫(kù)實(shí)現(xiàn)LDA主題分析。LDA主題分析過(guò)程中,首先獲取SnowNLP分類(lèi)好的好評(píng)集和差評(píng)集,然后,調(diào)用gensim庫(kù)的corpora模塊,構(gòu)建詞典,建立語(yǔ)料庫(kù)。最后,調(diào)用model.LdaModel(num_topics)方法指定主題數(shù)量,訓(xùn)練LDA模型[7]。本文設(shè)定LDA模型的主題數(shù)量為3,構(gòu)建LDA主題模型,并將好評(píng)集、差評(píng)集的主題分析結(jié)果以詞云圖可視化展示,關(guān)鍵核心代碼如下:
在“蘋(píng)果iPhone13”評(píng)論數(shù)據(jù)的主題分析中,圖4為正面評(píng)價(jià)的3個(gè)潛在主題的詞云圖。其中,“流暢”“好看”“拍照”“清晰”“顏色”等詞語(yǔ)表現(xiàn)較為突出,表明用戶(hù)認(rèn)為該款手機(jī)運(yùn)行流暢、外形與顏色好看、拍照清晰,對(duì)該產(chǎn)品的質(zhì)量表示認(rèn)可。而在圖5差評(píng)集主題的詞云圖中,“降價(jià)”與“保價(jià)”的權(quán)重最大,用戶(hù)反饋購(gòu)買(mǎi)手機(jī)后降價(jià),并且不支持保價(jià);其次,“充電”“信號(hào)”等頻率較高,另外“包裝”“客服”“售后”“快遞”等頻率也較高。
在“華為Mate40”的LDA模型分析中,圖6展示了Mate40手機(jī)好評(píng)的潛在主題,其中,“屏幕”“外觀”“外形”“拍照”“流暢”等詞語(yǔ)較為突出,說(shuō)明用戶(hù)對(duì)該產(chǎn)品質(zhì)量的認(rèn)可。在圖7差評(píng)集潛在主題的詞云圖中,“屏幕”的權(quán)重是最大的;其次,“客服”“發(fā)貨”“退貨”“換貨”“售后”“快遞”等頻率較高。
圖4 iPhone13正面評(píng)價(jià)主題的詞云圖
圖5 iPhone13負(fù)面評(píng)價(jià)主題的詞云圖
圖6 Mate40正面評(píng)價(jià)主題的詞云圖
圖7 Mate40負(fù)面評(píng)價(jià)主題的詞云圖
綜合京東平臺(tái)上手機(jī)評(píng)論數(shù)據(jù)的情感分析結(jié)果,總結(jié)出各品牌優(yōu)缺點(diǎn),見(jiàn)表3。
表3 兩款手機(jī)優(yōu)缺點(diǎn)匯總表
品牌優(yōu)點(diǎn)缺點(diǎn) 蘋(píng)果iPhone13外觀設(shè)計(jì)美觀、運(yùn)行流暢、顏色好看、拍照清晰降價(jià)快、充電問(wèn)題、信號(hào)不好、售后及物流差 華為Mate40手機(jī)外觀美觀、拍照效果好、系統(tǒng)運(yùn)行流暢屏幕綠邊、客服與售后服務(wù)差
對(duì)兩款手機(jī)品牌提出以下改進(jìn)建議:
(1)手機(jī)商家在保持產(chǎn)品外形美觀和拍照效果好等優(yōu)點(diǎn)的基礎(chǔ)上,優(yōu)化屏幕設(shè)計(jì),增強(qiáng)用戶(hù)體驗(yàn);
(2)對(duì)于降價(jià)問(wèn)題,商家應(yīng)在商品頁(yè)面給予說(shuō)明,標(biāo)明保價(jià)范圍與規(guī)則,并及做好保價(jià)申請(qǐng)服務(wù);
(3)提升客服人員的整體素質(zhì),完善售后服務(wù),提高服務(wù)質(zhì)量,以此在日趨激烈的手機(jī)市場(chǎng)競(jìng)爭(zhēng)中凸顯優(yōu)勢(shì)。
本文爬取京東商城的手機(jī)評(píng)論數(shù)據(jù),基于SnowNLP對(duì)其進(jìn)行文本情感分類(lèi),并將LDA主題模型與詞云可視化技術(shù)相融合,挖掘消費(fèi)者對(duì)商品的關(guān)注點(diǎn),為商家改進(jìn)產(chǎn)品質(zhì)量,完善售后服務(wù),提升品牌的競(jìng)爭(zhēng)力,提供了有意義的參考和依據(jù),具有一定的研究?jī)r(jià)值。但是,由于SnowNLP庫(kù)是基于電商評(píng)論數(shù)據(jù)集訓(xùn)練好的模型,本研究中并沒(méi)有重新訓(xùn)練數(shù)據(jù),因此數(shù)據(jù)分析的準(zhǔn)確率有待提高,并且爬取的數(shù)據(jù)量相比于海量數(shù)據(jù)而言,還欠缺一定的精準(zhǔn)度,這將是本文進(jìn)一步研究的方向。
[1] 吳小坤,趙甜芳. 自然語(yǔ)言處理技術(shù)在社會(huì)傳播學(xué)中的應(yīng)用研究和前景展望[J]. 計(jì)算機(jī)科學(xué),2020,47(6): 184-193.
[2] 曾小芹,余宏. 基于Python的商品評(píng)論文本情感分析[J]. 電腦知識(shí)與技術(shù),2020,16(8): 181-183.
[3] 章蓬偉,賈鈺峰,邵小青,等. 基于文本情感分析的電商產(chǎn)品評(píng)論數(shù)據(jù)研究[J]. 微處理機(jī),2020,41(6): 58-62.
[4] 王亞. 手機(jī)在線評(píng)論的情感分析[D]. 貴陽(yáng): 貴州財(cái)經(jīng)大學(xué),2020.
[5] 陳興蜀,常天祐,王海舟,等. 基于微博數(shù)據(jù)的“新冠肺炎疫情”輿情演化時(shí)空分析[J]. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,57(2): 409-416.
[6] 祖弦,謝飛. LDA主題模型研究綜述[J]. 合肥師范學(xué)院學(xué)報(bào),2015,33(6): 55-58.
[7] 尚永敏,趙榆琴. 基于機(jī)器學(xué)習(xí)的在線評(píng)論情感分析與實(shí)現(xiàn)[J]. 大理大學(xué)學(xué)報(bào),2021,6(12): 80-86.
Research on User Sentiment Analysis Based on Mobile Comment Text
Taking Huawei Mate40 and Apple iPhone13 mobile phones as the research objects, the user comment information of e-commerce platform is collected through Python crawler technology. After data cleaning, text segmentation and stopping words are preprocessed for the comment data, SnowNLP is used for sentiment analysis of the comment text. Finally, the LDA model is used to analyze the positive and negative evaluations, and the analysis results are displayed visually, in order to provide reference suggestions for mobile phone manufacturers to improve product and service quality to a certain extent.
mobile comment; sentiment analysis; SnowNLP; LDA theme model
TP391.4
A
1008-1151(2022)09-0022-03
2022-03-27
2019年度廣西高校中青年教師科研基礎(chǔ)能力提升項(xiàng)目“基于高校大數(shù)據(jù)的學(xué)生畫(huà)像系統(tǒng)研究”(2019KY0270)。
楊嘉怡(1998-),女,江蘇泰興人,桂林理工大學(xué)南寧分校學(xué)生,研究方向?yàn)閿?shù)據(jù)挖掘。
李曉英(1981-),女,山西汾陽(yáng)人,桂林理工大學(xué)南寧分校講師,研究方向?yàn)榇髷?shù)據(jù)分析與管理。