程航 王東
摘要:隨著生鮮產(chǎn)品在居民消費(fèi)中比重的上升,顧客對生鮮電商的滿意度評價吸引了越來越多的商家和研究者的關(guān)注。文章采用爬蟲工具抓取了京東生鮮和順豐優(yōu)選的顧客評論,并采用文本挖掘的方法構(gòu)建了從顧客角度出發(fā)的生鮮電商滿意度評價體系,并且針對不同的生鮮品類設(shè)置了專門的評價指標(biāo)和權(quán)重,為我國生鮮電商的顧客體驗(yàn)優(yōu)化提供了有效的理論支持和參考作用。
關(guān)鍵詞:電子商務(wù);生鮮;顧客滿意度;文本挖掘
中圖分類號:F272 文獻(xiàn)標(biāo)識碼:A
0引言
近年來,中國人民生活水平逐年提高,熱愛嘗試新鮮事物的中青年已成為了消費(fèi)的主力軍,這種年輕化的消費(fèi)觀念促進(jìn)了電子商務(wù)行業(yè)的發(fā)展,其中,生鮮市場的巨大潛力吸引了眾多電商巨頭和創(chuàng)業(yè)人士的目光。生鮮電商的經(jīng)營范圍包括蔬菜水果、蛋奶肉禽等生鮮食物,這一領(lǐng)域已經(jīng)成為了競爭激烈的電子商務(wù)中的最后一片“藍(lán)海”。然而,由于諸多因素的制約,我國的生鮮電商的整體服務(wù)仍然處于不成熟階段,其經(jīng)營模式仍在發(fā)展,服務(wù)水平也良莠不齊,貨品腐壞、錯送漏送、運(yùn)送不及時等問題頻頻發(fā)生,顧客滿意度不容樂觀。因此,從消費(fèi)者的視角出發(fā)研究生鮮電商的整體運(yùn)作情況,有助于生鮮電商了解自己所處的競爭環(huán)境和地位,發(fā)現(xiàn)行業(yè)的突破點(diǎn)所在,進(jìn)一步調(diào)整自身的發(fā)展戰(zhàn)略,使得消費(fèi)者在生鮮商家的購買體驗(yàn)得到優(yōu)化,更有助于提高該行業(yè)整體的績效水平。傳統(tǒng)的生鮮電商評價體系往往是基于已有文獻(xiàn)的經(jīng)驗(yàn)和專家的打分確定指標(biāo)和權(quán)重,而隨著網(wǎng)絡(luò)和手機(jī)購物的普及,網(wǎng)絡(luò)評論已經(jīng)成為了商家收集顧客評價的重要來源,相比其他的數(shù)據(jù)來源具有廣泛、全面、真實(shí)、貼近消費(fèi)者的優(yōu)點(diǎn),因此,利用網(wǎng)絡(luò)爬蟲抓取顧客評論并利用文本分析確定顧客滿意度評價體系已經(jīng)成為一種新穎而便捷的研究方法。
1文獻(xiàn)回顧
1.1文本挖掘的相關(guān)研究
在信息量巨大的當(dāng)今社會里,人們時常面臨著這樣一種困擾:如何在浩如煙海的書籍、新聞和信息中快速而準(zhǔn)確地篩選出自己所需的知識,文本挖掘技術(shù)的產(chǎn)生則很好地幫助人類解決了這類問題。自20世紀(jì)90年代初以來,文本挖掘技術(shù)逐漸深入到各個領(lǐng)域的研究之中,研究范圍圍繞聚類分析、關(guān)聯(lián)分析等展開,主要的研究對象包括但不限于網(wǎng)絡(luò)輿情、新聞報道、文學(xué)作品和網(wǎng)絡(luò)評論。
陸曉云(2005)系統(tǒng)而全面地介紹了文本挖掘的常用流程和使用領(lǐng)域,并對傳統(tǒng)算法進(jìn)行了改進(jìn),提出了一種能夠有效提高文本分類質(zhì)量的挖掘方法。程春慧(2015)將文本挖掘的方法應(yīng)用到了刑偵領(lǐng)域,針對公安辦案過程中大量的犯罪案件文本數(shù)據(jù)進(jìn)行了屬性信息抽取和語義分析,這種應(yīng)用有助于協(xié)助警方迅速歸類案件,并且對同類案件進(jìn)行系統(tǒng)的分析和比對翻。黃曉斌(2009)認(rèn)為文本挖掘能夠?yàn)榫W(wǎng)絡(luò)上紛繁雜亂的非結(jié)構(gòu)數(shù)據(jù)如輿情信息提供有效的研究方法,該研究系統(tǒng)地介紹了將文本挖掘用于網(wǎng)絡(luò)評論的信息挖掘模型的分類和構(gòu)建,并且利用實(shí)例展示了這種應(yīng)用的可行性翻。
Tom Magerman(2010)介紹了文本挖掘技術(shù)(基于向量空間模型和潛在語義索引)的使用方法,并用以檢測專利文獻(xiàn)和科學(xué)出版物之間的相似性。他認(rèn)為參與領(lǐng)域研究的專家將受益于檢測文本相似性的技術(shù),從而促進(jìn)繪圖和分類工作的開展搠。Van Driel M A(2006)在表型水平上展開研究,使用文本挖掘?qū)υ诰€孟德爾遺傳數(shù)據(jù)庫中所收錄的五千多種人類表型進(jìn)行了區(qū)分,他發(fā)現(xiàn)表型之間的相似性不僅能夠反映相互作用的功能,還能展現(xiàn)基因相關(guān)的生物學(xué)模塊。表型作圖可用于基因水平上的疾病預(yù)測以及基因和蛋白質(zhì)之間的功能關(guān)系。He w(2013)為了幫助公司了解如何進(jìn)行社交媒體競爭分析并將社交媒體數(shù)據(jù)轉(zhuǎn)化為決策者和營銷人員的工具,展開了一項(xiàng)具體的案例研究,該案例研究應(yīng)用文本挖掘來分析Facebook上的非結(jié)構(gòu)化文本內(nèi)容,針對3家最大的披薩餅連鎖店(必勝客,多米諾比薩和Papa John's Pizza)的官方Twitter賬號下的評論進(jìn)行了分析,結(jié)果揭示了社交媒體競爭分析的價值和文本挖掘的力量是有效的。
1.2以文本挖掘?yàn)榛A(chǔ)的電商顧客滿意度的相關(guān)研究
由于文本挖掘具有數(shù)據(jù)來源廣泛、時效性較強(qiáng)、客觀全面等優(yōu)點(diǎn),這一方法時常被應(yīng)用于網(wǎng)絡(luò)評論的分析之中。正是因?yàn)轭櫩驮谫徺I商品時往往有瀏覽評論的習(xí)慣,因此無論是商家、消費(fèi)者還是研究者都對在線評論所顯示出的顧客立場十分關(guān)注,相關(guān)的研究也不在少數(shù)。
李艷紅(2014)首先將分散在各個不同網(wǎng)絡(luò)平臺中的評論文本系統(tǒng)收集起來,然后運(yùn)用文本挖掘的方法分析哪些特性是消費(fèi)者在選購筆記本電腦最為關(guān)注的,隨后據(jù)此確立了一套評價指標(biāo)體系并使用多元回歸方法建立了針對筆記本電腦的顧客滿意度模型。該研究能夠用幫助電腦生產(chǎn)商準(zhǔn)確地了解消費(fèi)者的心理期望和關(guān)注點(diǎn)所在,也能夠幫助商家制定出更好地改進(jìn)策略和營銷方案。韓培文(2016)以京東書城的顧客評論作為主要的研究對象,選取了一本暢銷書籍的在線評論作為數(shù)據(jù)來源,得出京東書城的消費(fèi)者購買書籍時滿意度的影響因素和權(quán)重。并且利用問卷調(diào)查的方式進(jìn)一步驗(yàn)證了滿意度評價體系的科學(xué)性和準(zhǔn)確性。郭立秀(2017)以生鮮電商為研究對象,他選取了3家具有不同物流模式和運(yùn)營情況的生鮮電商,使用Python爬蟲分別抓取同一種商品的評論文本。全面而具體地分析了3家生鮮電商在不同的評價指標(biāo)下的表現(xiàn),幫助商家尋找自身的優(yōu)勢和弱點(diǎn)所在。
Hsiao Y H(2016)認(rèn)為隨著跨境電子商務(wù)的快速發(fā)展,跨境物流提供商必須致力于不斷改進(jìn)和差異化服務(wù),以保持其競爭優(yōu)勢。研究展示了文本挖掘技術(shù)在分析跨境物流服務(wù)在線內(nèi)容中的應(yīng)用,能夠滿足客戶對服務(wù)和產(chǎn)品的情感和情感認(rèn)知,文章也為跨境物流服務(wù)商提供了具體的參考實(shí)例。Yan G(2014)認(rèn)為顧客時常需要參考網(wǎng)絡(luò)已有的顧客評論來做出購買和退貨決策,因此作者開發(fā)了一個雙語模型來處理電子商務(wù)網(wǎng)站上發(fā)布的中英文用戶評論。文章主要介紹了中文分詞、數(shù)據(jù)挖掘模型和系統(tǒng)設(shè)計(jì)的相關(guān)知識。通過英文和中文在線用戶評論挖掘用戶滿意度情緒的實(shí)例說明了文章中開發(fā)的雙語模型具有實(shí)際價值。
從上述國內(nèi)外的研究成果可以總結(jié)得出,現(xiàn)有的研究主要存在以下兩點(diǎn)局限:(1)研究主要從行業(yè)角度出發(fā)對生鮮電商的物流風(fēng)險、運(yùn)行狀況進(jìn)行評價,較少有從消費(fèi)者角度出發(fā)的滿意度分析。(2)大部分生鮮消費(fèi)者滿意度評價體系都沒有對生鮮品類進(jìn)行進(jìn)一步的挖掘,而顧客對不同品類的要求是不同的,因此,一個籠統(tǒng)的指標(biāo)體系已經(jīng)無法滿足日漸專精化的生鮮商家的要求了,所以,建立出更準(zhǔn)確的指標(biāo)體系并且針對不同品類設(shè)定不同的權(quán)重系數(shù)具有著十分重要的現(xiàn)實(shí)意義。
2研究方法
如圖1所示,本文采用了文本挖掘的方法對抓取到的生鮮電商網(wǎng)絡(luò)評論進(jìn)行分析,主要的研究工作包括利用爬蟲工抓取兩家主要研究對象的顧客評論,利用結(jié)巴分詞進(jìn)行文本數(shù)據(jù)的預(yù)處理,通過詞頻確定關(guān)鍵指標(biāo),建立情感詞和修飾詞詞典并通過情感分析評估顧客的滿意度情況,最終構(gòu)建出生鮮電商總體顧客滿意度評價體系和6個商品大類下的專門評價體系。需要注意的是本文所采用的爬蟲工具和文本挖掘工具均通過python編程進(jìn)行實(shí)現(xiàn)。
3實(shí)證分析
3.1數(shù)據(jù)收集
本文數(shù)據(jù)主要來源于生鮮電商網(wǎng)站的顧客評論。本文選取順豐優(yōu)選和京東到家作為具體研究樣本,根據(jù)生鮮的定義劃分出6個商品大類,并選取每個大類下銷量最高的代表性商品(如表1所示),選取的評論時間為2017年11月至2018年11月。以保證數(shù)據(jù)的時效性和代表性。本文根據(jù)需要對樣本進(jìn)行了篩選:(1)剔除同一消費(fèi)者同一天內(nèi)的多條重復(fù)評論;(2)剔除字?jǐn)?shù)過少,不具有參考意義的無意義評論。得到的有效評論京東到家98590條,順豐優(yōu)選61743條。
3.2數(shù)據(jù)處理
本文得到的初始數(shù)據(jù)包括用戶名、評論時間和評論內(nèi)容,如表2所示。
首先本文對原始文本進(jìn)行清洗,剔除無效數(shù)據(jù),隨后進(jìn)行分詞和去除停用詞處理,除了對所有評論進(jìn)行詞頻分析,還針對6個生鮮大類分別做了詞頻分析。具體操作為在所有詞語中提取出詞頻在前100位的高頻詞語,并對其進(jìn)行同義詞合并。由于生鮮電商的顧客評論用詞具有高度的口語性和不規(guī)范性,因此本文在參考同義詞詞典的基礎(chǔ)上進(jìn)行了人工合并同義詞,隨后加總同義詞的詞頻,參考已有文獻(xiàn)中的指標(biāo)設(shè)置得出了顧客關(guān)注度最高的3個一級指標(biāo)和8個二級指標(biāo),然而,本文在針對具體生鮮品類進(jìn)行分析時發(fā)現(xiàn)不同的品類具有不同的關(guān)鍵詞,將其命名為專有指標(biāo),如乳制品品類下詞頻較高的詞語包括“脂肪”、“熱量”、“無糖”、“低脂”,故在乳制品品類下增加“品類多樣性”指標(biāo),而水產(chǎn)品類下存在高頻詞匯“澳洲”“進(jìn)口”“產(chǎn)地”,故增加“產(chǎn)地多樣性”指標(biāo),而冷凍食品品類下很多顧客提到“孩子”“寶寶”“娃娃”,考慮到水餃燒麥等冷凍食品常常作為孩子的早餐和夜宵,故增加“幼兒適宜度”作為指標(biāo),具體評價體系如圖2所示。
情感分析也被專家稱作傾向分析或意見挖掘,其分析的主體主要是帶有主觀傾向的文本。本文所做的情感傾向分析主要是判斷評論文本的情感是正面(好評)、負(fù)面(差評)還是中性(中評),同時根據(jù)情感的強(qiáng)度計(jì)算出單句的情感得分。
首先,本文需要構(gòu)建情感詞、否定詞和程度副詞這3大詞表。情感詞和否定詞都已有比較成熟和常用的詞表,其中情感詞詞表的構(gòu)建是在Hownet情感詞詞表的基礎(chǔ)上加入一些生鮮行業(yè)中特殊的情感詞使其更符合本文的研究主題。程度副詞的權(quán)值設(shè)定在參考了經(jīng)典文獻(xiàn)后采用五段制,即分為“超級”(2)、“非常”(1.5)、“比較”(1)、“些許”(0.75)和“一點(diǎn)”(0.25),而否定詞的權(quán)值為-1,否定詞和程度副詞都是位于情感詞前后的修飾詞。
其中:F表示所求單句的情感值,n代表單句中情感詞的個數(shù),f(x)是情感此表中可查詢到的情感詞本身具有的權(quán)值,aij是情感詞的修飾詞,i表示其個數(shù)。則計(jì)算整句評論情感值的步驟如下所示:
(1)讀取評論文本庫,對顧客評論一一進(jìn)行分句;
(2)查找各個分句中的屬性相關(guān)詞,如“包裝”、“質(zhì)量”,記錄下每句涉及的屬性;
(3)查找各個分句里的情感詞,記錄其自帶的情感值;
(4)查找與情感詞位于同一句子內(nèi)的程度副詞,然后用情感值乘以程度副詞的權(quán)值;
(5)查找否定詞,若否定詞為奇數(shù)個,則乘上-1,否則乘1;
(6)計(jì)算所有分句的情感值;
(7)計(jì)算各個指標(biāo)下所有句子情感值的均值和差評(情感值小于0的評論)占該屬性下所有評論的比例,輸出情感值得分和差評率。
3.3評價指標(biāo)權(quán)重確定
至此,本文已構(gòu)建出總體顧客滿意度評價指標(biāo)及針對具體生鮮類別的評價指標(biāo),接下來要做的是指標(biāo)權(quán)重的確定。已有研究的常見方法往往是直接采用指標(biāo)詞頻作為權(quán)重,或是采用專家打分和層次分析法確定指標(biāo)權(quán)重。然而第一種方法的缺點(diǎn)在于難以準(zhǔn)確地展示出顧客真正的痛點(diǎn)所在,如商品品質(zhì)是詞頻最高的指標(biāo),然而這一指標(biāo)下的差評率很低,也即顧客對生鮮電商的此項(xiàng)表現(xiàn)基本滿意,而售后盡管在所有評論中所占的頻數(shù)較低,但是差評率極高,可見顧客在這一方面可能存在著較大的不滿,因此商家應(yīng)該投入更多的注意力在售后這一指標(biāo)的表現(xiàn)上。本文采取的方法是在詞頻的基礎(chǔ)上,利用差評率進(jìn)行修正,得出最終的指標(biāo)權(quán)重具有更強(qiáng)的實(shí)際意義。差評率修正權(quán)重系數(shù)如表3所示:
3.4實(shí)例對比
在進(jìn)行兩家生鮮電商的顧客滿意度評價時,需要對各項(xiàng)指標(biāo)(屬性)下的情感值得分分別進(jìn)行計(jì)算,將每項(xiàng)指標(biāo)下的情感值得分總和除以涉及該指標(biāo)的評論數(shù)量,所得的平均值基本介于0~2分之間。若cS代表總顧客滿意度,Yi為每項(xiàng)指標(biāo)的權(quán)重,ωi為每項(xiàng)指標(biāo)下的滿意度,則生鮮電商的總滿意度可以用公式(3)來求解。
通過表5我們可以發(fā)現(xiàn),兩家生鮮電商的總體滿意度在1分左右,整體運(yùn)行狀況良好,顧客整體評價呈現(xiàn)正面態(tài)勢,京東生鮮的整體顧客滿意度略優(yōu)于順豐優(yōu)選。其中,京東生鮮的價格、促銷活動力度、物流和品牌口碑的表現(xiàn)更好,但是各項(xiàng)指標(biāo)之間的變現(xiàn)差異較大,而順豐優(yōu)選的商品品質(zhì)、售后服務(wù)優(yōu)于京東生鮮,并且整體表現(xiàn)比較均衡。然而,值得注意的是,兩家生鮮電商的售后滿意度得分均為最低,可見這一項(xiàng)的差評率最高,顧客滿意度情況不容樂觀。根據(jù)以上的研究情況,可以針對生鮮電商的運(yùn)作提出這樣的建議:
(1)根據(jù)本文所建立的針對某一生鮮品類的專門評價體系,商家可以洞悉顧客真正的關(guān)注點(diǎn)所在,從而制定精準(zhǔn)的廣告營銷策略,例如在果蔬產(chǎn)品的宣傳標(biāo)語上更強(qiáng)調(diào)有機(jī)和健康,在冷凍食品的包裝上做一些對兒童和主婦更有吸引力的設(shè)計(jì)等。
(2)生鮮電商應(yīng)當(dāng)調(diào)查自身的消費(fèi)者滿意度情況,并且針對不同商品大類和不同評價指標(biāo)分析滿意度情況,有的放矢地制定改進(jìn)策略。如京東生鮮應(yīng)專注于售后和包裝的優(yōu)化,順豐優(yōu)選應(yīng)當(dāng)提高發(fā)貨時間和售后的水平,揚(yáng)長避短,使得整體顧客滿意度更上一臺階。
4結(jié)論與展望
網(wǎng)絡(luò)評論保證了數(shù)據(jù)來源的可靠性和真實(shí)性,能夠幫助企業(yè)和研究者更加快捷地獲取消費(fèi)者第一手的反饋信息。本文采用了文本挖掘的方法,不但構(gòu)建了生鮮電商的總體顧客滿意度,還創(chuàng)新性地針對不同商品品類做出了更細(xì)致的分析,以便對具有不同側(cè)重市場的生鮮電商進(jìn)行更公平的對比。根據(jù)本文構(gòu)建的顧客滿意度評價體系,商家可以更精確地得知消費(fèi)者在不同消費(fèi)品上的需求差異,并且有的放矢地制定營銷廣告策略、優(yōu)化購物體驗(yàn)。這種研究方法同樣可以適用于餐廳、酒店、手機(jī)應(yīng)用等需要關(guān)注網(wǎng)絡(luò)口碑的主體的滿意度研究。
本文的研究也存在著一定的缺陷和不足,之后的研究者可以在這幾點(diǎn)上進(jìn)行進(jìn)一步的探索:(1)在指標(biāo)體系的權(quán)重設(shè)定上深入挖掘,進(jìn)一步結(jié)合專家的意見。(2)研究不同地區(qū)、不同季節(jié)、ios端和安卓端的顧客滿意度情況,并采用顯著性分析來探究它們之間存在的差異。(3)本文僅采取了兩家代表性的企業(yè)作為研究對象,之后的研究可以擴(kuò)展研究對象的個數(shù),建立更為精準(zhǔn)和全面的指標(biāo)體系,使得各生鮮電商能夠橫向比較并發(fā)現(xiàn)自身的優(yōu)勢和弱點(diǎn)所在。