穆翠霞
摘要:為了用戶更直觀、全面、高效地了解商品評價信息,以京東為例,設計和實現(xiàn)了商品評價文本可視化。采用八爪魚采集器進行了數(shù)據(jù)采集,結(jié)合Python和jieba進行了分詞和詞頻統(tǒng)計,Echarts實現(xiàn)了詞云圖、旭日圖和主題河流圖等文本可視化形式,幫助用戶多角度多形式地了解商品評價情況。
關鍵詞:文本可視化;商品評價;Echarts;jieba
中圖分類號:TP311.1? ? ? 文獻標識碼:A
文章編號:1009-3044(2020)35-0011-04
開放科學(資源服務)標識碼(OSID):
Visualization Design of Commodity Evaluation Text Based on Python and Echarts
MU Cui-xia
(China Womens University, Beijing 100101, China)
Abstract: In order to understand the commodity evaluation information more intuitively, comprehensively and efficiently, taking JD as an example, this paper designs and realizes the visualization of commodity evaluation text. Using Octopus collector for data collection, combined with Python and Jieba for word segmentation and word frequency statistics, realizing text visualization forms such as word cloud, sunburst and theme River, which helps users understand commodity evaluation from different angles.
Key words: text data visualization; commodity evaluation; Echarts; jieba
ChannelAdvisor通過調(diào)查發(fā)現(xiàn)[1],90%的消費者在購買商品前會瀏覽在線評論,而且他們中的83%消費者認為最終購買決策會受到在線評論影響。在線評論作為一種口碑形式,通常沒有明顯的商業(yè)目的,更容易獲得消費者信賴。Jupiter Research調(diào)查數(shù)據(jù)[2]顯示超過90%的大企業(yè)相信,在影響消費者是否購買的決定性因素中網(wǎng)民意見是至關重要的。以京東為例,商品評價通常包含好評度、評價標簽、評價條數(shù)、好評中評差評各自條數(shù)、各條評價詳情(用戶、時間、星級、文本等)等,如圖1所示。消費者可以通過好評度、評價標簽獲得對商品的初步總體印象,通過好評、中評、差評條數(shù)情況進一步了解用戶對商品的反饋傾向,還可以查看評價詳情了解具體評價內(nèi)容。但是,在查看評價詳情時,雖然可以按照默認系統(tǒng)推薦排序,也可以選擇按照時間排序,但是評價條數(shù)成千上萬,不可能依次全部瀏覽。為了讓用戶更全面、高效、直觀地了解商品評價情況,從而為用戶的購買決策提供支持,本文研究商品評價文本的可視化設計和實現(xiàn)。文本可視化的一般流程包括數(shù)據(jù)采集、數(shù)據(jù)清洗與預處理、文本分詞與統(tǒng)計、數(shù)據(jù)可視化設計與實現(xiàn)。下文將以京東商城某型號的投影儀評價數(shù)據(jù)為例,結(jié)合具體實現(xiàn)工具、方法和過程,闡述商品評價文本的可視化設計與實現(xiàn)。
1 數(shù)據(jù)采集與預處理[3]
八爪魚采集器是一款免費的網(wǎng)頁數(shù)據(jù)采集軟件,使用簡單,功能強大,還可以根據(jù)軟件內(nèi)置模板進行數(shù)據(jù)采集。配置八爪魚采集參數(shù),采集了京東某款投影儀的商品評價原始數(shù)據(jù),如圖2所示,包括用戶賬號、級別、評價星級、評價內(nèi)容、評價日期、評價關鍵詞、評價類型等信息。
采集京東某款投影儀原始數(shù)據(jù)共729條(受限于采集軟件和京東平臺,采集的并非全部評價數(shù)據(jù),重點僅在研究可視化設計與實現(xiàn)),去除無效評價記錄,包括重復記錄(同一用戶的相同評價),評價文本與星評不一致的記錄,用戶未進行文本評價的記錄。京東默認4星和5星為好評,2星和3星為中評,1星為差評。評價文本與星評不一致的記錄,比如評價文本中出現(xiàn)差評而星評為4星,評價文本為一般而星評為4星或5星。最后保留評價記錄共706條,將好評358條、中評150條和差評198條保存為3個不同的txt文件,后面用于設計詞云圖和旭日圖等。另外按照時間順序?qū)⒑迷u、差評數(shù)據(jù)各自分別保存為5個不同txt文件,后面用來設計主題河流圖。
2 文本分詞及詞頻統(tǒng)計[4-5]
下面將利用Python和jieba結(jié)巴中文分詞實現(xiàn)商品評價文本的分詞和詞頻統(tǒng)計。jieba是一款優(yōu)秀的 Python 第三方中文分詞庫,jieba 支持三種分詞模式:精確模式、全模式和搜索引擎模式,其中精確模式將語句最精確的切分,只輸出最大概率組合,不存在冗余數(shù)據(jù),適合做文本分析。
2.1 自定義詞典和自定義停用詞表
針對投影儀商品評價這一特定文本的分析需求,通過jieba分詞效果測試,把部分特定詞添加到自定義詞典中,比如“側(cè)投”“不刺眼”“還原度”“自動對焦”等。
為了保證可視化效果,去掉一些無效詞的干擾,還可以自定義停用詞表,這些詞對于表達商品評價信息沒有實際意義,比如“部分”“聯(lián)系”“整體”“應該”“最后”等。另外,有的用戶進行商品評價采用了模板,類似“外觀外形:……投影亮度:……”,考慮到這些評價分類詞匯包括:“外形外觀”“投影亮度”“投影效果”“音質(zhì)音效”“操作難易”“其他特色”等,不是對商品的實質(zhì)評價或描述,因此將分類詞匯刪除,減少對實質(zhì)評價詞匯信息的提取和可視化表達的影響。
2.2 分詞及詞頻統(tǒng)計
Python采用jieba分詞工具,調(diào)用上文的自定義詞典和自定義停用詞表,實現(xiàn)分詞及詞頻統(tǒng)計,并按照Echarts可視化實現(xiàn)的格式要求寫入文件。實現(xiàn)關鍵代碼如下圖3,結(jié)合可視化具體需求,對整理好的不同評價文本進行分詞和詞頻統(tǒng)計處理。
2.3 評價詞標注
以好評文本分詞結(jié)果為例,將按照用戶體驗、產(chǎn)品性能、外觀外形、其他評價、物流客服、性價高低等6個評價屬性類別對分詞進行標注,然后按照不同屬性類別內(nèi)部進行詞頻排序,選擇排名前10評價詞及詞頻用于分屬性詞云圖和旭日圖可視化設計,如下圖4所示。
3 Echarts可視化設計與實現(xiàn)
ECharts 是一個使用 JavaScript 實現(xiàn)的開源可視化庫,提供直觀、交互豐富且可高度個性化定制的數(shù)據(jù)可視化圖表,適用于多種不同的可視化場景。本文設計了不同的文本可視化形式,包括詞云圖、旭日圖和主題河流圖,試圖從多角度多方式地滿足用戶快速、全面、直觀地了解商品評價的需求[4-6]。詞云圖通過字體大小、位置和顏色等表達不同關鍵詞的重要程度。旭日圖(Sunburst)由多層的環(huán)形圖組成,既能像餅圖一樣表現(xiàn)局部和整體的占比,又能像矩形樹圖一樣表現(xiàn)層級關系,本文中用來表達對于商品不同方面的評價情況。主題河流圖主要用來表示事件或主題等在一段時間內(nèi)的變化,本文用于表達隨著時間推移的評價變化情況。下面將闡述商品評價文本的不同可視化設計與實現(xiàn)。
3.1 不同款商品的評價標簽詞云圖
評價標簽能直接通過八爪魚采集器爬取,如圖5所示,然后分別提取其中的標簽詞和數(shù)值,采用JavaScript和Echarts實現(xiàn)詞云圖,如圖6和圖7所示。這樣可以直觀、初步地對比不同產(chǎn)品,比如兩個不同品牌的價位相當?shù)耐队皟x評價標簽情況。詞云圖實現(xiàn)的關鍵代碼如圖8所示。
3.2 好評、中評、差評詞云圖
根據(jù)商品評價的情感傾向,分別將好評、中評、差評文本以詞云圖形式展示,如圖9、圖10、圖11所示,這樣用戶可以從視覺上直觀、全面地了解不同評價類型的整體情況。比如差評中“客服”“京東”“退貨”等較為突出,在好評中“不錯”“清晰”“簡單”“小巧”“方便”等較為突出。
3.3 好評與差評分屬性旭日圖[7]
根據(jù)評價屬性分類后,可以設計和實現(xiàn)好評和差評文本的分屬性旭日圖。下圖12為好評文本的旭日圖及下鉆效果,通過旭日圖可以直觀地看到,好評文本中不同的屬性包括用戶體驗、產(chǎn)品性能、外觀外形、物流客服、性價高低、其他評價等所占比例情況,還有不同屬性中的各評價詞占比情況。
比如好評文本的用戶體驗中“不錯”“簡單”“方便”,產(chǎn)品性能中的“效果”“清晰”“白天”,外觀外形中的“小巧”“美觀”等都占較大比例。單擊某屬性比如“用戶體驗”,通過旭日圖的下鉆效果可以進一步更清晰地查看“用戶體驗”的評價詞比例分布情況。另外,通過對比好評和差評的旭日圖,用戶可以清晰地對比了解用戶滿意和不滿意的方面主要集中在哪些方面,然后可以進一步查看評論詳情來獲取相關信息。下圖13為差評的分屬性旭日圖,差評中“物流客服”明顯占比增大,“外觀外形”明顯占比減小。
3.4 好評與差評分屬性詞云圖
按照不同的屬性分類分別設計詞云圖并進行對比,對好評和差評文本實現(xiàn)分屬性詞云圖,結(jié)果如圖14和圖15,可以進一步直觀對比不同屬性的評價情況。比如差評中對“外觀外形”的評價明顯減少,性價高低的評價主要集中在“降價”“價格”“保價”等。
3.5 差評主題河流圖[8]
隨著時間的變化,評價也可能發(fā)生變化,設計主題河流圖可以直觀展示評價關鍵詞的變化情況,比如差評變化情況如下圖16所示,差評中“客服”“退貨”“京東”等在3月增多明顯。主題河流圖的實現(xiàn)關鍵代碼,如圖17所示。
4 結(jié)束語
對商品評價文本的可視化分析,可以幫助消費者更直觀、全面、高效地了解商品情況,從而支持消費者的購買決策,同時也可以幫助商家更好地了解消費者的反饋和需求,進而改進商品和服務等,提升用戶購物體驗。本文基于Python和Echarts并結(jié)合jieba分詞,對某款投影儀的評價文本設計了詞云圖、旭日圖、主題河流圖等多種可視化形式,讓用戶多角度更全面地了解商品,而且也適用于其他類型商品的評價文本可視化。但是,本文中數(shù)據(jù)爬取的完整性以及不同屬性評價詞的自動標注等有待后續(xù)深入研究。
參考文獻:
[1] 宋蘇娟,彭衛(wèi),王沖.基于手機評論數(shù)據(jù)探究在線評論有用性的影響因素[J].商場現(xiàn)代化,2020(11):1-4.
[2] 曹麗,郭愷強.基于在線評論的網(wǎng)絡營銷策略研究[J].輕紡工業(yè)與技術(shù),2020,49(5):120-121.
[3] 陳俊宇,鄭列.基于R語言的商品評論情感可視化分析[J].湖北工業(yè)大學學報,2020,35(1):110-113.
[4] 徐博龍.應用Jieba和Wordcloud庫的詞云設計與優(yōu)化[J].福建電腦,2019,35(6):25-28.
[5] 李春芳,石民勇.數(shù)據(jù)可視化原理與實例[M].北京:中國傳媒大學出版社,2018.
[6] 韓帥康,江濤,張順.大數(shù)據(jù)評論采集分析系統(tǒng)的設計與實現(xiàn)[J].電腦知識與技術(shù),2020,16(4):35-37.
[7] 易小群,李天瑞,陳超.面向評論文本數(shù)據(jù)的旭日圖可視化[J].計算機科學,2019,46(10):14-18.
[8]百度Echarts[EB/OL].[2020-05-26].https://echarts.apache.org/zh/index.html.
【通聯(lián)編輯:謝媛媛】