張琰 朱燕翔 鄭桂玲
摘要:通過挖掘網(wǎng)購手機的中文評論,以知名電商網(wǎng)站手機銷售評論為研究對象,首先通過爬蟲軟件抓取銷量排名前十的手機網(wǎng)購評論,在文本數(shù)據(jù)預處理后使用改良的jieba分詞工具對評論進行分詞,并基于Python開發(fā)平臺采用TF-IDF算法計算網(wǎng)購中文評論中的手機屬性關鍵詞及修飾詞關鍵詞,通過關鍵詞詞頻分析找出用戶對特定型號手機的各屬性的消費評價,以便消費者了解不同手機屬性的優(yōu)勢與劣勢,同時為商家改進商品功能提供建議。
關鍵詞:文本挖掘;網(wǎng)購評論;屬性評價
中圖分類號:F27文獻標識碼:Adoi:10.19311/j.cnki.16723198.2018.22.022
0引言
當下手機成為人們生活中必不可少的工具,手機除了實現(xiàn)通信功能外還提供休閑娛樂、移動支付、信息搜索等功能。由于手機類產(chǎn)品的標準化,越來越多的用戶選擇網(wǎng)上購買,并且網(wǎng)絡平臺還為用戶提供購買后評價功能,這使得手機質(zhì)量、性能好壞,手機的各項屬性是否受用戶歡迎成為完全公開的信息。商家可以通過對評論進行分析,得出用戶的消費體驗,從而改進商品性能或服務質(zhì)量。
1研究現(xiàn)狀綜述
本文擬從中文評論中挖掘關鍵詞的方式分析用戶評價,這一過程包含兩個主要步驟:首先,需要對大量中文評論進行分詞;其次,對分詞后的文本信息進行關鍵詞提取。使用比較多的是由張華平開發(fā)的NLPIR漢語分詞系統(tǒng)ICTCLAS2016。本文采用基于Python軟件開發(fā)環(huán)境的jieba分詞工具。
第二個步驟是關鍵詞提取,目前主要的研究方法有兩類:一是基于統(tǒng)計的方法;二是基于機器學習的方法?;诮y(tǒng)計的方法包括詞頻(Term Frequency,TF)、互信息(Mutual Information,MI)、TF-IDF、信息增益(Information Gain,IG)、χ2統(tǒng)計(CHI-square Statistic)等。基于統(tǒng)計的特征詞提取普遍具有復雜度低、計算簡單的優(yōu)點,但提取的細度與精度不夠。而機器學習的特征詞提取能夠很好的提高細度與精度?;跈C器學習的方法包括支持向量機、關聯(lián)規(guī)則K-means、神經(jīng)網(wǎng)絡等。其中,基于統(tǒng)計的TF-IDF詞頻統(tǒng)計是最基礎、簡便的方法。
2研究思路
本文首先通過網(wǎng)絡爬蟲抓取知名電商網(wǎng)站上銷量排名在前10的手機評論數(shù)據(jù),使用jieba分詞系統(tǒng)對語料庫中的中文文本進行分詞、詞性標注操作,采用TF-IDF算法計算名詞的詞頻以便篩選出權(quán)值較高的手機屬性詞,以這些屬性詞為關鍵詞,在各類型手機評論數(shù)據(jù)中檢索表達用戶情感傾向的修飾詞的高頻關鍵詞,修飾詞的詞性根據(jù)樣本數(shù)據(jù)定義為:形容詞、副形詞、名形詞、習用語、數(shù)詞、區(qū)別詞、狀態(tài)詞等。根據(jù)檢索出的修飾詞的褒義與貶義統(tǒng)計用戶對各型號手機的各屬性的評價情況。
3實驗及數(shù)據(jù)分析
3.1屬性特征詞提取
屬性詞TF-IDF權(quán)值從大到小排,如表1所示。
3.2修飾詞與屬性詞匹配
統(tǒng)計各型號手機各屬性受用戶好評或差評的情況。以華為榮耀暢玩6x為例,首先在評論文本中選出關鍵詞所在句子,采用TF-IDF算法統(tǒng)計該句中出現(xiàn)的修飾詞的詞頻,按大小排序并根據(jù)詞義人工劃分褒義與貶義,表2顯示了“性價比”、“速度”、“手感”這三個屬性的高頻修飾詞及其詞頻。
3.3屬性評價
采用加權(quán)平均的方法計算每個屬性關鍵詞的好評(差評)權(quán)值,褒義詞權(quán)值為正,貶義詞權(quán)值為負,得到華為榮耀暢玩6x各屬性關鍵詞的評價權(quán)值如圖1所示。圖中權(quán)值大于0的屬性表示用戶對該屬性的評價基本為正向;權(quán)值小于0的屬性表示用戶對該屬性的評價基本為負向。
由圖1可知,用戶對華為榮耀暢玩6x這款手機總體評價比較好,評價值大于0的好評屬性有19個,其中好評度最高的屬性是“電池”,其次是“質(zhì)量”;評價權(quán)值小于0的差評屬性有3個,這3個屬性分別為“贈品”、“打電話”與“耳機”。同理可得其余9部手機的屬性關鍵詞的評價權(quán)情況。
一加3T手機統(tǒng)計了24個屬性,其中好評屬性17個,差評屬性7個,好評度較高的屬性為“性價比”與“手感”,差評度高的屬性為“按鍵”與“音量”;Apple 7統(tǒng)計了23個屬性,其中好評屬性15個,差評屬性8個,好評度較高的屬性為“手感”與“系統(tǒng)”,差評度高的屬性為“降價”與“劃痕”;華為榮耀暢玩5C統(tǒng)計了18個屬性,其中好評12個,差評6個,好評度較高的屬性為“性價比”、“質(zhì)量”、“手感”,差評度高的屬性為“沒貨”;華為榮耀8統(tǒng)計了18個屬性,其中好評屬性12個,差評屬性6個,好評度較高的屬性為“質(zhì)量”、“性價比”,差評度高的屬性為“沒貨”;Apple 6s統(tǒng)計了21個屬性,其中好評屬性10個,差評屬性11個,好評度較高的屬性為“系統(tǒng)”、“質(zhì)量”,差評度高的屬性為“沒貨”;OPPO R9S統(tǒng)計了25個屬性,其中好評屬性21個,差評屬性4個,好評度較高的屬性為“電池”、“手感”,差評度高的屬性為“死機”、“發(fā)票”;榮耀NOTE8統(tǒng)計了25個屬性,其中好評屬性20個,差評屬性5個,好評度較高的屬性為“電用戶對網(wǎng)購手機客服質(zhì)量的訴求基本是普遍存在池”、“系統(tǒng)”、“性價比”、“手感”,差評度高的屬性為“降價”、“死機”;LG G5統(tǒng)計了23個屬性,其中好評屬性22個,差評屬性1個,好評度較高的屬性值均較低,最高的一個屬性為“系統(tǒng)”,差評屬性為“后殼”;海爾M328V統(tǒng)計了21個屬性,其中好評屬性20個,差評屬性1個,好評度較高的屬性為“電池”、“外觀”,差評屬性只有唯一的“報時”。
4總結(jié)
本文在獲取網(wǎng)購手機評論數(shù)據(jù)的基礎上,應用TF-IDF算法分析了銷量排名前10的手機屬性評價情況。用戶對手機屬性的評價特征表現(xiàn)為:①對10款熱銷手機受關注屬性的評價以好評價為主。②好評權(quán)值最高與差評權(quán)值最低的手機均為國產(chǎn)手機。③負面評價屬性詞個數(shù)最多的手機是Apple 6s,達到11個,說明在蘋果眾多機型中6s存在的問題最多。
綜上所述,采用網(wǎng)購評論文本挖掘的方法可以獲得消費者對產(chǎn)品屬性的評價,該方法更貼近消費者真實感受與想法,研究結(jié)論對手機品牌商及網(wǎng)購平臺商都有一定的借鑒價值。
參考文獻
[1]Hua-Ping ZHANG, Hong-Kui Yu, De-Yi Xiong, Qun LIU.HHMM-based Chinese Lexical Analyzer ICTCLAS[J].Second SIGHAN workshop affiliated with 41th ACL; Sapporo Japan, July, 2003, pp.184187.
[2]Yuhai Yu, Hongfei Lin, Jiana Meng and Zhehuan Zhao.Visual and Textual Sentiment Analysis of a Microblog Using Deep Convolutional Neural Networks[J].Algorithms 9 (2) (2016):41.
[3]Zhang W, Yoshida T, Tang X.A comparative study of TF-IDF, LSI and multi-words for text classification[J].Expert Systems with Applications, 2011, 38(3):27582765.
[4]單麗莉, 劉秉權(quán), 孫承杰.文本分類中特征選擇方法的比較與改進[J].哈爾濱工業(yè)大學學報, 2011:319324.