祝洪達(dá)
摘 要:本文旨在建立適用于快遞服務(wù)的評(píng)價(jià)指標(biāo),因?yàn)閭鹘y(tǒng)的SERVQUAL和SERVPERF量表存在依賴調(diào)查問卷以及行業(yè)通用性差等局限性,所以選擇利用網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)爬取用戶對(duì)于快遞服務(wù)的在線評(píng)論作為語料,對(duì)語料進(jìn)行分句、判斷文本有效性之后,利用LDA模型挖掘出用戶對(duì)于快遞服務(wù)的關(guān)注點(diǎn),并將其作為評(píng)價(jià)快遞服務(wù)的指標(biāo)。
引言
近年來,依托淘寶、京東、蘇寧易購等電子商務(wù)平臺(tái)的興起與繁榮,快遞市場獲得了極大的發(fā)展。根據(jù)國家郵政局公布的2017年郵政行業(yè)運(yùn)行情況顯示,業(yè)務(wù)總量累計(jì)完成9763.7億元,同比增長32%[1]。目前在快遞市場正處于各大快遞公司快速擴(kuò)張、競爭空前激烈的環(huán)境下,快遞服務(wù)質(zhì)量低下的問題逐漸暴露出來,丟件、損毀、延誤、工作人員服務(wù)態(tài)度差以及投訴反饋效果不佳等問題層出不窮。在當(dāng)前以消費(fèi)者為主導(dǎo)的市場環(huán)境下,快遞企業(yè)服務(wù)質(zhì)量的高低會(huì)直接影響企業(yè)的形象。低端的服務(wù)質(zhì)量會(huì)導(dǎo)致顧客源的流失,進(jìn)而損害企業(yè)的經(jīng)濟(jì)效益。因此,提升服務(wù)質(zhì)量,塑造良好的企業(yè)形象是快遞企業(yè)競爭過程中不可或缺的一環(huán)。
1.相關(guān)理論
1.1傳統(tǒng)的服務(wù)質(zhì)量評(píng)價(jià)模型
傳統(tǒng)的服務(wù)質(zhì)量評(píng)價(jià)模型有SERVQUAL(Service Quality)模型和SERVPERF(Service Performance)模型。
SERVQUAL模型將服務(wù)質(zhì)量評(píng)價(jià)指標(biāo)分為可靠性、響應(yīng)性、有形性、保證性以及移情性五個(gè)維度,五個(gè)維度下又分為22個(gè)具體因素。通過用戶填寫調(diào)查問卷的方式,對(duì)每個(gè)問題的實(shí)際感受值和期望值進(jìn)行評(píng)分,由此來確立影響服務(wù)質(zhì)量的具體因素,其核心是“服務(wù)質(zhì)量差距模型”,即服務(wù)質(zhì)量水平的高低取決于用戶所感受的服務(wù)水平和用戶期望的用戶實(shí)際感受的服務(wù)水平之間的差值,即
2.準(zhǔn)備工作
本文旨在建立一套合理的用于評(píng)價(jià)快遞服務(wù)質(zhì)量的指標(biāo)體系,通過對(duì)互聯(lián)網(wǎng)中的對(duì)于快遞服務(wù)的評(píng)價(jià)進(jìn)行文本挖掘,利用LDA主題模型發(fā)現(xiàn)用戶對(duì)快遞服務(wù)的關(guān)注點(diǎn),并將這些關(guān)注點(diǎn)作為評(píng)價(jià)快遞服務(wù)好壞的指標(biāo)。
2.1快遞服務(wù)評(píng)論文本的獲取
本文利用Python3.6編寫網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)獲取用戶對(duì)于快遞服務(wù)的評(píng)論,并經(jīng)過數(shù)據(jù)去重等預(yù)處理后保存入本地硬盤,以備后續(xù)處理。本次實(shí)驗(yàn)共抓取3433條快遞評(píng)論。
2.2文本預(yù)處理
文本預(yù)處理主要包括以下評(píng)論分句、人工標(biāo)注有效性、分詞和特征項(xiàng)選擇、建立空間向量模型等。
(1)分句
對(duì)評(píng)論進(jìn)行分句的原因在于,一條評(píng)論中并不是所有的信息都是有效的。本文將直接提及或從中能推斷出評(píng)價(jià)的是快遞服務(wù)某一方面的評(píng)論視為有效評(píng)論。以“雖然順豐派送有時(shí)候會(huì)不及時(shí),但是我對(duì)客服和跟蹤的服務(wù)是非常滿意的,每個(gè)人的需求不同,服務(wù)行業(yè)態(tài)度很重要!”該評(píng)論為例,該評(píng)論中包含了快遞服務(wù)的派送、客服、信息追蹤、服務(wù)態(tài)度等多方面的信息,但“每個(gè)人的需求不同”并不是對(duì)于快遞服務(wù)的評(píng)價(jià),屬于無效數(shù)據(jù),需要從文檔集中去除。所以本文按照“,”、“。”、“?”等標(biāo)點(diǎn)符號(hào)對(duì)評(píng)論進(jìn)行分句處理,便于從中剔除無效的數(shù)據(jù)。
(2)人工標(biāo)注其有效性
對(duì)評(píng)論分句處理后產(chǎn)生的新評(píng)論人工判斷其有效性并進(jìn)行標(biāo)注,將有效的分句標(biāo)記為1,無用的分句標(biāo)記為0,目的是通過對(duì)評(píng)論進(jìn)行少量的人工標(biāo)注,利用有監(jiān)督的機(jī)器學(xué)習(xí)算法訓(xùn)練判斷文本有效性的模型。本實(shí)驗(yàn)標(biāo)注了9000條數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集。
(3)分詞和特征選擇
采用ICTCLAS漢語分詞系統(tǒng)的Python API對(duì)評(píng)論逐條進(jìn)行分詞,并進(jìn)行詞性標(biāo)注。因?yàn)槲覀兊年P(guān)注的是關(guān)于快遞服務(wù)方面的描述,所以需要將標(biāo)點(diǎn)符號(hào)和方位詞、時(shí)間詞等詞性的詞語刪除。
(4)建立空間向量模型(VSM)
經(jīng)過分詞之后,將每個(gè)單詞表示為(T_i-W_i )的形式,其中T_i表示語料庫中的第i個(gè)單詞,W_i表示第i個(gè)單詞的權(quán)重。權(quán)重通過TF-IDF算法來計(jì)算,如(7)。所示。其中〖tf〗_i表示單詞t_i在文檔d_i中出現(xiàn)的頻率,M表示語料庫中的總文檔數(shù),m_i表示訓(xùn)練文檔中出現(xiàn)單詞t_i的文檔數(shù), 表示單詞t_i的逆文檔頻率[6]。
2.3文本有效性判別
文本有效性判別,本質(zhì)是一個(gè)二分類問題,常用的分類模型有Logistic回歸模型、決策樹模型(Decision Tree)和支持向量機(jī)模型(SVM)等。本文對(duì)各個(gè)分類模型的準(zhǔn)確率(precision)、召回率(recall)以及F度量值(F-measure)等性能進(jìn)行比較,結(jié)果見(表1)。從表1可以看出,支持向量機(jī)模型的分類性能要優(yōu)于其他的模型,這主要是因?yàn)橹С窒蛄繖C(jī)模型僅與支持向量有關(guān),所以相對(duì)于其他的分類模型而言,需要的數(shù)據(jù)樣本量要少,同時(shí)利用高斯核函數(shù)的支持向量機(jī)模型能將矩陣映射為高維空間中的一個(gè)點(diǎn),從而提高文本有效性判別的準(zhǔn)確率,所以本文利用采用高斯核函數(shù)的SVM模型來判斷文本的有效性。
2.4在線評(píng)論主題發(fā)現(xiàn)
對(duì)在線評(píng)論進(jìn)行主題挖掘之前,需要先將評(píng)論進(jìn)行分句處理,利用訓(xùn)練好的SVM模型判斷該評(píng)論每一個(gè)分句的有效性,舍棄無效的分句,將有效的數(shù)據(jù)再合并為一條數(shù)據(jù),經(jīng)過處理之后,每條評(píng)論包含的詞語個(gè)數(shù)一般不會(huì)超過25個(gè)。然后利用LDA模型對(duì)全部評(píng)論進(jìn)行主題發(fā)現(xiàn)。中國快遞協(xié)會(huì)體驗(yàn)調(diào)查報(bào)告將快遞服務(wù)質(zhì)量評(píng)價(jià)體系分為發(fā)件攬收環(huán)節(jié)、收件環(huán)節(jié)、派件網(wǎng)點(diǎn)以及投訴受理情況4個(gè)維度共17個(gè)具體指標(biāo)[7];王洪偉等利用詞頻統(tǒng)計(jì)的方法,從企業(yè)整體、價(jià)格、時(shí)效性、快遞員、信息化、安全性以及客戶服務(wù)7個(gè)維度18個(gè)具體指標(biāo)來評(píng)價(jià)快遞服務(wù)質(zhì)量的高低[8],所以本次實(shí)驗(yàn)設(shè)置主題個(gè)數(shù)為25,迭代次數(shù)設(shè)置為50,得到的部分結(jié)果見(表 2)。
3.結(jié)論可行性分析
根據(jù)LDA模型的主題發(fā)現(xiàn)結(jié)果,可以將快遞服務(wù)的在線評(píng)論分為配送環(huán)節(jié)、快遞員、投訴環(huán)節(jié)等8個(gè)維度23個(gè)評(píng)價(jià)指標(biāo),詳情見(表3)。經(jīng)過與中國快遞協(xié)會(huì)調(diào)查報(bào)告以及利用詞頻統(tǒng)計(jì)建立的快遞質(zhì)量評(píng)價(jià)指標(biāo)對(duì)比發(fā)現(xiàn),三者的具體指標(biāo)大致相同,說明利用LDA模型建立快遞服務(wù)質(zhì)量評(píng)價(jià)指標(biāo)具有一定的可行性。
結(jié)語
本文利用LDA主題模型對(duì)快遞服務(wù)的在線評(píng)論建模,挖掘在線評(píng)論的主題,得到用戶對(duì)于快遞服務(wù)的關(guān)注點(diǎn),并將其作為評(píng)價(jià)快遞服務(wù)質(zhì)量的指標(biāo)。從用戶對(duì)快遞服務(wù)的關(guān)注點(diǎn)可以看出,快遞服務(wù)不僅要優(yōu)化業(yè)務(wù)流程,提高作業(yè)的效率,還要注意提升企業(yè)形象,特別是快遞員以及客服等工作人員的專業(yè)素質(zhì)以及工作態(tài)度,建立價(jià)格規(guī)范,并注意物流狀態(tài)的實(shí)時(shí)更新。
參考文獻(xiàn):
[1]國家郵政局公布2018年4月郵政行業(yè)運(yùn)行情況[EB/OL]. http://www.spb.gov.cn/xw/dtxx_15079/201805/t20180512_1563793.html,2018-05-12/2018-05-20.
[2]黃敏.基于SERVQUAL模型的商業(yè)銀行服務(wù)質(zhì)量評(píng)價(jià)研究[D].重慶理工大學(xué),2015.
[3]唐曉波,向坤.基于LDA模型和微博熱度的熱點(diǎn)挖掘[J].圖書情報(bào)工作,2014,58(5):58-63..
[4]劉兵.情感分析:挖掘觀點(diǎn)?情感和情緒[M].機(jī)械工業(yè)出版社,2017.
[5]涂銘,劉祥,劉樹春. Python自然語言處理實(shí)戰(zhàn)核心技術(shù)與算法[M].機(jī)械工業(yè)出版社,2018.
[6]馬剛.基于語義的Web數(shù)據(jù)挖掘[M].東北財(cái)經(jīng)大學(xué)出版社,2014.
[7]快遞服務(wù)體驗(yàn)式調(diào)查報(bào)告[EB/OL]. http://www.cea.org.cn/content/details_21_13959.html,2017-10-09.
[8]王洪偉,宋媛,杜戰(zhàn)其,等.基于在線評(píng)論情感分析的快遞服務(wù)質(zhì)量評(píng)價(jià)[J].北京工業(yè)大學(xué)學(xué)報(bào),2017,43(3):402-412.