黃春林 肖群 徐晨 郝亞男
摘要:如今,網(wǎng)絡(luò)評論已成為消費者了解商品信息、購買商品的重要影響因素,海量用戶的頻繁交易形成了大量的在線商品評論,從而提供了極具價值的文本信息。本研究基于信息采納模型的框架,以京東平臺的數(shù)碼影音產(chǎn)品為研討對象,利用網(wǎng)絡(luò)爬蟲收集用戶評論,然后對評論內(nèi)容進行文本挖掘,概括出數(shù)碼影音產(chǎn)品中影響用戶滿意度的六個因素:做工質(zhì)感、商家服務(wù)、續(xù)航能力、音質(zhì)音效、產(chǎn)品特色、佩戴感受。研究結(jié)果可幫助廠商、京東平臺店鋪制定產(chǎn)品的改進和營銷策略。
關(guān)鍵詞:在線評論挖掘;數(shù)碼影音產(chǎn)品;用戶滿意度;LDA
引言
隨著移動互聯(lián)網(wǎng)技術(shù)的發(fā)展,電子商務(wù)凸顯出巨大潛力,為人們的生活方式帶來了巨大改變,也重塑了諸多行業(yè)的貿(mào)易機制。由于線上交易的虛擬性,繼而催生了如用戶生成內(nèi)容(UGC)等許多獨有的消費者行為,體現(xiàn)在網(wǎng)絡(luò)購物市場上就是用戶在線評論。有學(xué)者認為,在線上購物環(huán)境下用戶在線評論已成為消費者了解商品質(zhì)量信息、降低購買風(fēng)險性進而確定是否購買的重要信息資源。因此,如何提高服務(wù)質(zhì)量,進而提升消費者網(wǎng)購體驗,成為維持用戶滿意度和持續(xù)增長重要因素。
CNNIC最新公布的《第47次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》,截至2020年12月,我國的線上購物用戶規(guī)模已經(jīng)達到7.82億[1];然而,根據(jù)《2020年度中國電子商務(wù)用戶體驗與投訴監(jiān)測報告》顯示, 2020全年,我國線上購物的投訴占全體投訴的59. 97%,網(wǎng)絡(luò)購物領(lǐng)域如此高比例投訴量,除去其自身商業(yè)模式的影響,更體現(xiàn)出此行業(yè)依然存在大量消費體驗不佳現(xiàn)象[2]。而當今的市場競爭愈發(fā)激烈,電商行業(yè)已經(jīng)從搶占市場份額的戰(zhàn)略逐漸向強調(diào)服務(wù)質(zhì)量和用戶體驗的戰(zhàn)略轉(zhuǎn)移,同時總體市場發(fā)展的趨勢也逐漸由“價格驅(qū)動”轉(zhuǎn)向“服務(wù)驅(qū)動”,因此,如何幫助電商企業(yè)和經(jīng)營商家提升網(wǎng)購顧客體驗質(zhì)量,輔助企業(yè)進行運營管理,成了急需解決的問題。
網(wǎng)購消費者在購買商品后,常會發(fā)表商品評價,一般包括購買商品與線上介紹是否一致、商品使用情況、商家服務(wù)質(zhì)量和物流配送等內(nèi)容?;诰€上購物時商品的虛擬屬性,用戶了解商品信息的渠道單一,無法對商品情況進行全面了解,因此無形中增大了消費者購買風(fēng)險,而在線評論根據(jù)真實用戶的購買情況,包含了諸多額外的商品信息,能夠幫助有購買意向的消費者,使其對商品信息有更全面的了解,所以在線網(wǎng)絡(luò)評論更容易獲得其他用戶的信服和采納,如何從大量用戶評論中提取出影響用戶選擇行為的因素,成為了當前理論研究和企業(yè)發(fā)展急需關(guān)注的問題。
本研究選取京東平臺作為用戶在線評價的數(shù)據(jù)來源,以文本挖掘技術(shù)為基礎(chǔ),對數(shù)碼影音商品的評論進行分析,分析影響消費者滿意度的因素,進而找到提高電商平臺用戶網(wǎng)絡(luò)購物體驗的方法,這樣企業(yè)也能根據(jù)用戶需要逐漸改進商品和服務(wù),從而進一步提升用戶滿意度,為企業(yè)和消費者帶來雙贏的局面 [3]。
相關(guān)理論
用戶滿意度理論
通過對國內(nèi)外文獻中用戶滿意度概念的研究和總結(jié),發(fā)現(xiàn)它們的定義仍然存在差異。Oliver(1980)認為,用戶滿意度是指用戶在進行商品和商家服務(wù)的購買或享受后,對商品和服務(wù)的現(xiàn)實感受與預(yù)期感知的比較[4]。當用戶覺得商品或商品比自己期望的產(chǎn)品和服務(wù)更好時,就會支持產(chǎn)品,產(chǎn)生認同感,當用戶覺得商品或商品并沒有比自己預(yù)期的產(chǎn)品和服務(wù)更好時,就會有一種不以為然的感覺,這是一種事后的評價[4]。Davis F D(1989)認為,用戶滿意度的定義是從購買開始到使用產(chǎn)品和服務(wù)的全過程中的感受,表達了用戶在整個過程中的心理[5]。
網(wǎng)絡(luò)爬蟲技術(shù)理論
網(wǎng)絡(luò)爬蟲,是指按照一定的規(guī)則自動地在萬維網(wǎng)中抓取信息的一種程序或者腳本,其被用于自動提取網(wǎng)頁[6]。
文本挖掘理論
文本挖掘(Text Data Mining, TDM),其含義是指為了實現(xiàn)發(fā)現(xiàn)知識的目的,從大規(guī)模文本庫中抽取隱含的、有潛在價值信息的過程,作為數(shù)字化社會的產(chǎn)物,文本分析已成為大數(shù)據(jù)時代下的一種極受歡迎的新興技術(shù)[7]。
數(shù)碼影音評論數(shù)據(jù)采集
數(shù)據(jù)來源
本文選擇平臺上銷量大、瀏覽量和收藏量高的產(chǎn)品為研究對象。在眾多網(wǎng)購產(chǎn)品中,以耳機為代表的數(shù)碼影音產(chǎn)品憑借廣大數(shù)碼產(chǎn)品迷的青睞,已經(jīng)成為消費者最喜愛的商品之一。
在過去三年中耳機市場發(fā)生了一個重大的變化,由原本維持多年的音頻產(chǎn)品轉(zhuǎn)向了產(chǎn)品功能更加多樣的智能電子產(chǎn)品。這個行業(yè)的巨大變化由此也引發(fā)了相關(guān)用戶的消費觀念、市場競爭等諸多的變化。發(fā)生這一變化之前,大多數(shù)用戶都以使用手機標配耳機為主,很少一部分用戶由于追求更好的音質(zhì)等原因去購買其他的耳機,但自從2016年蘋果AirPods問世,打破了原先耳機市場的平衡,一年后真無線耳機市場得到了突飛猛進的增長,耳機市場的銷售額更是一舉超過過去5年銷售額度的總和,成為一個新的紅海市場。其中,Strategy Analytics新興終端技術(shù)團隊最新公布,截止2020年全球藍牙耳機的總銷量將超過3億部。然而,耳機市場的快速變化,質(zhì)量參差不齊,市場監(jiān)管不到位,由此也帶來了諸多產(chǎn)品和市場問題。因此本文將選用耳機作為研究的對象。
同時,主打數(shù)碼家電產(chǎn)品的京東電商平臺以極高的營收增速位居各大電商平臺的首位,顯示出了巨大的發(fā)展?jié)摿?,故本研究選取京東平臺作為用戶在線評論的數(shù)據(jù)來源。
數(shù)據(jù)采集
本文使用八爪魚爬蟲程序,爬取了京東部分商店的數(shù)碼影音用戶的在線評論數(shù)據(jù),總用戶評論量存在7個CSV文件中,原始數(shù)據(jù)共約10萬條數(shù)據(jù)。抓取數(shù)據(jù)時,首先對數(shù)碼影音關(guān)鍵詞進行檢索,抓取所有數(shù)碼影音商品列表用戶評論頁鏈接地址,之后通過循環(huán)此評論列表頁的地址進入每個商品的用戶評論頁,對用戶評論進行抓取。由于京東平臺網(wǎng)頁端對用戶評論展示進行限制,故單個商品最多只能抓取100頁的用戶評論,約1000條。
筆者在查看京東平臺商品評論區(qū)時,發(fā)現(xiàn)用戶評論主要由用戶名、會員標志、數(shù)碼影音型號,數(shù)碼影音顏色、評論時間、評價星級、評論內(nèi)容和追評等板塊組成。然后在進行正式評估之前,要對所采集的數(shù)據(jù)進行預(yù)處理,首先由于從網(wǎng)頁中爬取的數(shù)據(jù)中會包含一些無效信息,如特殊符號、語氣助詞、表情符號等,需要去除無關(guān)數(shù)據(jù),因此選取其中出現(xiàn)頻次較高的關(guān)鍵詞作為基本分析對象。由于這些因素與本研究沒有太多益處,故剔除其他評論中的因素,只保留用戶文本評論內(nèi)容。
文本分析與數(shù)碼影音用戶滿意度因素歸納
數(shù)據(jù)預(yù)處理——中文分詞
中文分詞是根據(jù)一定的規(guī)范將連續(xù)的字序列重新組合成詞序列的過程[8]。本文所用的jieba分詞器是一個第三方中文分詞組件庫,分詞效果準確度較高,因此本文選用jieba組件進行分詞。
文本詞云統(tǒng)計
西北大學(xué)里奇·戈登在2006年提出“wordcloud”這個概念,通過形成“關(guān)鍵詞云層”或“關(guān)鍵詞渲染”,在圖形上突出內(nèi)容文本中出現(xiàn)次數(shù)較高的“關(guān)鍵詞”。詞云圖通過去掉大量的文字信息,讓網(wǎng)絡(luò)訪問者對文字的主旨一目了然。本文將分好的詞進行頻數(shù)統(tǒng)計后,采用Wordcloud庫生成詞云圖,效果如圖:
詞云圖中字體越大的詞組的詞頻越高,也側(cè)面反映出了該詞組在該文本當中可能越為重要,但文本中一般會存在大量標點符號、日常語氣詞、副詞等詞,這些詞與用戶要表達的主題思想通常關(guān)系不大,一般做法是將其列為停用詞列表,讓真正的主題詞(比如名詞、動詞)凸顯出來。由上圖,可以看出一些用戶對于數(shù)碼影音購買滿意度的關(guān)注特征,例如音質(zhì)、音效、質(zhì)感、舒適度等特征,但仍有一些詞如數(shù)碼影音、能力、感覺等與主題表達無關(guān)的詞,這些將在后續(xù)中進行優(yōu)化。
用戶滿意度因素歸納
本小節(jié)使用LDA模型對數(shù)碼影音評論進行主題分析,從而得出用戶在購買數(shù)碼影音產(chǎn)品中滿意度的影響因素。LDA是文檔主題生成模型,也被稱為三層貝葉斯概率模型,其本質(zhì)上是一種非監(jiān)督機器型的學(xué)習(xí)技術(shù),能夠?qū)Υ罅课臋n內(nèi)容集或語料庫中潛藏的主題信息進行識別,LDA通過采用詞袋的方法,將每一篇文檔都看做成一個詞頻向量,然后對文本信息向易于建模的數(shù)字信息的轉(zhuǎn)變有了極大的幫助[9]。
LDA生成過程
LDA對于語料庫中的每篇文檔都定義了以下的生成過程:首先從每篇文檔的主題分布中抽取一個主題;然后從被抽到的主題所對應(yīng)的單詞分布中抽取一個單詞;最后一直重復(fù)上述過程直到文檔中的每個單詞都被抽取過[9]。
語料庫中的每個文檔都對應(yīng)于T的多項分布(multinomial distribution)(通過重復(fù)試驗等方法事先給定),多項分布被記作θ。每個主題對應(yīng)于詞匯表(vocabulary)中V個單詞的多項分布,并且該多項分布被稱為φ。
LDA模型生成部分代碼:
#lda模型,num_topics設(shè)置主題的個數(shù)
%time lda = models. ldamodel. LdaModel (corpus = corpus, id2word = dictionary, num_topics = 6, passes =100, iterations = 6000)
本模型中iterations意思為訓(xùn)練模型過程中試圖推斷文本主題的次數(shù),通常在1000以上,設(shè)為6000次,passes意思為訓(xùn)練模型過程中遍歷全部文本的次數(shù),通常情況遍歷次數(shù)越大,耗時越長,設(shè)為100次。
主題分析結(jié)果
實驗過程中針對文本主題num_topic進行調(diào)整參數(shù),最終確定6個主題,盡量做到不重不漏。下圖2為主題分析結(jié)果。盡管該模型預(yù)測不能做到百分百準確預(yù)測主題詞,但基本上各個主題的關(guān)鍵詞相似度極高,皆有共同特征,可以視為同一個主題。
經(jīng)整理,確定的6個主題如下,為:做工質(zhì)感、商家服務(wù)、續(xù)航能力、音質(zhì)音效、產(chǎn)品特色、佩戴感受。
研究結(jié)論
結(jié)論
本文通過文本分析的方法對京東平臺數(shù)碼影音產(chǎn)品的用戶評論進行了研究,構(gòu)建了相應(yīng)的BOW文本詞頻向量,利用LDA算法對實驗數(shù)據(jù)進行建模模擬計算,經(jīng)過不斷的調(diào)整參數(shù),最終確定影響用戶購買數(shù)碼產(chǎn)品的6個因素,即做工質(zhì)感、商家服務(wù)、續(xù)航能力、音質(zhì)音效、產(chǎn)品特色和佩戴感受。這為商家和耳機產(chǎn)商優(yōu)化產(chǎn)品、平臺和商家服務(wù)以進一步提升用戶滿意度提供了參考建議。
對數(shù)碼影音廠商和銷售平臺的建議
對耳機產(chǎn)商的建議
本文研究數(shù)據(jù)表明,在耳機產(chǎn)品方面,用戶主要關(guān)注五方面的因素,即做工質(zhì)感、續(xù)航能力、音質(zhì)音效、產(chǎn)品特色、佩戴感受。針對這五個因素,本文提出以下建議:
1.對做工質(zhì)感的建議
在做工質(zhì)感類別中,出現(xiàn)頻率較高特征詞有做工、質(zhì)感、顏色、手感、外觀、很漂亮、材質(zhì)、磨砂等詞,各大耳機廠商在這些方面要多加注意,提升產(chǎn)品的質(zhì)感、外觀設(shè)計等元素,緊追前沿時尚,給用戶以體驗上的滿足。
2.對音質(zhì)音效的建議
音質(zhì)音效在數(shù)碼影音產(chǎn)品中的重要性一直以來都是比較高的,本實驗也側(cè)面佐證了這一點。耳機產(chǎn)商也都深知要提升音質(zhì)音效,但產(chǎn)品有限的價位上,要重點提升哪些方面的音質(zhì)音效,還需后續(xù)深入研究。本實驗中,音質(zhì)音效方面的關(guān)鍵特征詞有低音、降噪、雜音、隔音、高音、重低音等詞,故耳機廠商可重點提升這幾個產(chǎn)品音質(zhì)因素。
3.對續(xù)航能力的建議
續(xù)航能力在數(shù)碼產(chǎn)品中是用戶經(jīng)常容易吐槽的點。對于無線耳機產(chǎn)品來說,廠商可優(yōu)化產(chǎn)品的功耗、提升電池模組的性能、支持快速充電的功能等。
4.對佩戴感受的建議
佩戴感受方面的關(guān)鍵詞有舒適度、佩戴、耳塞、入耳式等,廠商可重點關(guān)注耳機的佩戴感受方面,多進行用戶佩戴實驗,優(yōu)化產(chǎn)品佩戴體驗細節(jié)。
5.對產(chǎn)品特色的建議
每一個成功的產(chǎn)品大多都有自己的獨立特色,故廠商要想讓自己的產(chǎn)品大規(guī)模普及開來,也必須針對自己企業(yè)的技術(shù)和設(shè)計特點,設(shè)計自己產(chǎn)品的特色。此主題關(guān)鍵詞包括好看、性價比、顏值、小巧、可愛、時尚、好用等,廠商可針對產(chǎn)品的外觀設(shè)計、性價比、易用性等方面進行用戶滿意度的優(yōu)化。
對京東平臺和私營店鋪的建議
商家服務(wù)主題的關(guān)鍵詞為物流、京東、快遞、客服、速度、包裝、品牌、服務(wù)等,京東平臺和私營店鋪可以針對這些關(guān)鍵詞,進行服務(wù)優(yōu)化,提升快遞配送速度、客服人性化程度等。
參考文獻:
[1] 中國政府網(wǎng),《第47次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》[EB/OL].http://www.gov.cn/xinwen/2021-02/03/content_5584518.htm
[2] 網(wǎng)經(jīng)社,《2020年度中國電子商務(wù)用戶體驗與投訴監(jiān)測報告》[EB/OL]http://www.100ec.cn/zt/2021yhtsbg
[3] 徐冬磊.C2C電子商務(wù)中的顧客滿意度影響因素分析[D].安徽大學(xué),2010.
[4] Davis F D.Perceived usefulness, perceived ease of use,and user acceptance of information technology[J].MIS quarterly,1989:319-340
[5] 朱俊亞.用戶滿意度影響因素研究—基于產(chǎn)品創(chuàng)新的視角[D].西南交通大學(xué),2017.
[6] 百度百科,網(wǎng)絡(luò)爬蟲[EB/OL].https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fr=aladdin
[7] 諶志群,張國煊.文本挖掘研究進展[J].模式識別與人工智能,2005,18(1):65-74.
[8] 丁蔚.基于詞典和機器學(xué)習(xí)組合的情感分析[D].西安郵電大學(xué),2017.
[9] 孔振.基于VSM的文本分類系統(tǒng)的設(shè)計和實現(xiàn)[D].哈爾濱工業(yè)大學(xué),2014.
基金項目:國家自科項目地區(qū)基金:基于信息不對稱和行為偏好雙重視角下的供應(yīng)鏈決策與協(xié)調(diào)研究(71762031)