曹軍 王虎
摘 要:以“百度外賣”和“美團(tuán)外賣”上的用戶差評(píng)評(píng)論為研究對(duì)象,通過利用Word2vec工具對(duì)差評(píng)評(píng)論特征詞匯進(jìn)行聚類,發(fā)掘外賣用戶差評(píng)影響因素。在經(jīng)過評(píng)論抓取、分詞、特征詞發(fā)掘、關(guān)鍵詞選取以及基于Word2vec的聚類過程后,最終得到用戶差評(píng)影響因素,并針對(duì)影響因素對(duì)外賣商家經(jīng)營(yíng)提出了建議。
關(guān)鍵詞:差評(píng)影響因素;詞語聚類;Word2vec
中圖分類號(hào):F27
文獻(xiàn)標(biāo)識(shí)碼:A
doi:10.19311/j.cnki.16723198.2017.02.027
外賣行業(yè)隨著互聯(lián)網(wǎng)的不斷發(fā)展,逐漸成為普通人用餐的一種重要方式。2015年,中國餐飲O2O市場(chǎng)規(guī)模為1615.5億元,占餐飲行業(yè)總體的比重為5.0%,預(yù)計(jì)2018年餐飲O2O市場(chǎng)將達(dá)到2897.9億元。在現(xiàn)代電子商務(wù)中,買家因?yàn)閷?duì)服務(wù)不滿意而給出的評(píng)價(jià)即為差評(píng)。本文通過分析用戶差評(píng)評(píng)論,使用TF-IDF方法挖掘用戶差評(píng)文本中的關(guān)鍵詞匯,再利用Word2vec方法對(duì)關(guān)鍵詞匯進(jìn)行聚類,從商家視角出發(fā)發(fā)掘用戶差評(píng)影響因素,為商家改善自身服務(wù)提供建議。
1 網(wǎng)上評(píng)論的抓取
“餓了么”、“美團(tuán)外賣”和“百度外賣”是中國領(lǐng)先的在線外賣平臺(tái),根據(jù)比達(dá)咨詢發(fā)布的2016年第二季度中國第三方餐飲外賣市場(chǎng)研究報(bào)告,2016年第二季度中國外賣平臺(tái)市場(chǎng)份額主要由這三家外賣平臺(tái)瓜分,其中,“餓了么”以36.7%的市場(chǎng)份額領(lǐng)跑,“美團(tuán)外賣”市場(chǎng)份額為29.0%,“百度外賣”以19.9%的市場(chǎng)份額排名第三。
通過對(duì)三家外賣平臺(tái)的用戶評(píng)論進(jìn)行閱讀,發(fā)現(xiàn)只有“美團(tuán)外賣”和“百度外賣”明確對(duì)“差評(píng)”進(jìn)行了歸類,并且可以抓取到“差評(píng)”類別下的所有用戶評(píng)論,而“餓了么”平臺(tái)并未對(duì)“差評(píng)”評(píng)論進(jìn)行歸類。所以,本文選取“美團(tuán)外賣”和“百度外賣”平臺(tái)作為研究對(duì)象。
利用Java語言設(shè)計(jì)了基于Html標(biāo)簽的網(wǎng)絡(luò)爬蟲程序,通過該程序抓取了“美團(tuán)外賣”、“百度外賣”2家外賣平臺(tái)旗下5大類(早餐類、正餐類、甜品飲品類、夜宵類、其他類)、每類10家典型店鋪的10條差評(píng)評(píng)論,共1000條評(píng)論。為了保證評(píng)論文本能夠被特征項(xiàng)充分表示,獲得最佳的數(shù)據(jù)處理效果,將抓取出的所有文本合并為一個(gè)文檔來進(jìn)行研究。
2 數(shù)據(jù)處理
數(shù)據(jù)預(yù)處理是指對(duì)原始文本數(shù)據(jù)做初級(jí)處理,形成可以表征文本含義的特征詞匯。在生成特征詞匯之前,需要對(duì)原始語料進(jìn)行分詞處理。本文采用中科院計(jì)算技術(shù)研究所設(shè)計(jì)的分詞程序?qū)υu(píng)論語料進(jìn)行分詞處理,在完成去除重復(fù)詞、停用詞、語氣詞等一系列預(yù)處理后,形成了初步的特征詞簇。
經(jīng)過數(shù)據(jù)預(yù)處理后,得到的特征詞匯較多,為了找到可以充分表征評(píng)論語句含義的關(guān)鍵詞匯,采用TF-IDF法計(jì)算詞匯權(quán)重,并根據(jù)權(quán)重大小提取關(guān)鍵詞匯。
TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估字、詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度,TF意味詞頻,IDF意味逆文檔頻率。根據(jù)TF-IDF的思想,詞匯的代表性和它在文件中出現(xiàn)的次數(shù)成正比,與它在語料庫中出現(xiàn)的頻率成反比下降,TF-IDF算法如公式(1)、(2)和(3)。
其中,tfi,j表示特征詞在評(píng)論語料集中出現(xiàn)的頻率,D表示語料庫文件總數(shù),{j:ti∈dj}表示語料庫中包含該特征詞的文件數(shù)目。
為了提取出評(píng)論中的關(guān)鍵詞匯,引入國家語委現(xiàn)代漢語平衡語料庫進(jìn)行對(duì)比研究,采用TF-IDF方法計(jì)算數(shù)據(jù)源文檔中經(jīng)過數(shù)據(jù)預(yù)處理的詞匯的TF-IDF值。經(jīng)過對(duì)計(jì)算結(jié)果進(jìn)行分析,設(shè)定閾值為0.002,進(jìn)行過濾處理,得到經(jīng)過初步篩選后的70個(gè)關(guān)鍵詞,接下來本文將利用Word2Vec工具對(duì)關(guān)鍵詞進(jìn)行聚類。
3 基于Word2vec的關(guān)鍵詞聚類
3.1 Word2vec工作原理
Word2vec是谷歌在2012年實(shí)現(xiàn)的開源語言建模工具,主要用于自然語言處理領(lǐng)域。該工具使用連續(xù)的bag-of-word模型,以及計(jì)算詞向量的skip-gram結(jié)構(gòu)。Word2vec將文本集作為輸入,將每個(gè)詞對(duì)應(yīng)的生成向量作為輸出,通過生成的詞向量,可以計(jì)算與用戶指定詞語之間的距離(相似度)。它以文本預(yù)料作為輸入,通過訓(xùn)練生產(chǎn)每個(gè)詞匯對(duì)應(yīng)的詞向量,可以根據(jù)詞向量計(jì)算兩個(gè)詞的相似程度。例如,用戶輸入“味道”,Word2vec工具可以分析出與“味道”詞義相近的詞匯,并給出表征相似程度的數(shù)值。
Word2vec利用Skip-Gram算法進(jìn)行詞向量分析。Skip-Gram算法根據(jù)當(dāng)前單詞預(yù)測(cè)語境。Skip-gram算法目標(biāo)是尋找參數(shù)集合θ,使得下式所示條件概率的乘積最大化:
argmaxθ∏w∈Text∏c∈C(w)p(c|w;θ)(4)
其中,θ是模型參數(shù),w表示文本詞匯,Text是文本詞匯集合,C(w)表示在文本詞匯集合Text中,詞匯w出現(xiàn)過的語境包含的詞匯的集合;c表示語境中的詞匯,c∈C(w);p(c|w)表示當(dāng)w出現(xiàn)時(shí),某一語境c出現(xiàn)的概率;
Skip-Gram算法認(rèn)為,通過最大化如公式(4)所示的條件概率,使得單詞和語境之間的對(duì)應(yīng)關(guān)系最大化,而滿足條件概率最大化的單詞矢量,也就成為了單詞語義的合理表示。Word2vec利用上述原理對(duì)詞匯進(jìn)行矢量化,并據(jù)此計(jì)算詞匯之間的相似度。
3.2 利用Word2vec進(jìn)行聚類分析
Word2vec需要運(yùn)行在Linux環(huán)境中。將評(píng)論文本語料庫文件,放入Word2vec目錄下,并修改demo-word.sh文件,設(shè)置詞向量維數(shù)為200,采用skip-gram模型進(jìn)行機(jī)器學(xué)習(xí)。運(yùn)行命令sh demo-word.sh后,等待訓(xùn)練集完成,模型訓(xùn)練完成之后,可以得到vectors.bin詞向量文件,利用./distance命令計(jì)算詞語間的cosine相似度,再根據(jù)詞匯間相似度進(jìn)行聚類。
設(shè)定聚類類別個(gè)數(shù)為-classes為10類,使用./word2vec-train word.txt -output classes.txt -cbow 0 -size 20 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 –classes10 進(jìn)行聚類分析。命令各字段的含義如表1所示。
運(yùn)行上述命令后,可以得到聚類結(jié)果。分析聚類結(jié)果,發(fā)現(xiàn)TF-IDF值和排名前5的詞匯聚簇如表2所示。
根據(jù)word2vec進(jìn)行聚類分析的結(jié)果,發(fā)現(xiàn)消費(fèi)者給予差評(píng)的原因主要是在配送速度,食品味道、食品衛(wèi)生、服務(wù)態(tài)度以及食品分量等方面對(duì)商家感到了不滿意。
3.3 聚類結(jié)果分析
通過利用word2vec工具對(duì)餐飲O2O用戶差評(píng)語料進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析,發(fā)掘了用戶給予差評(píng)的主要原因,針對(duì)上述原因,我本文為餐飲O2O行業(yè)提出以下建議:
聚類結(jié)果表明,與傳統(tǒng)餐飲行業(yè)不同,配送速度是影響用戶用餐體驗(yàn)的最關(guān)鍵因素。餐飲O2O行業(yè)與傳統(tǒng)食品行業(yè)最大的區(qū)別在于,餐飲O2O行業(yè)多了配送環(huán)節(jié),而食品在保溫、保鮮方面對(duì)于時(shí)間間隔要求比較苛刻,因此消費(fèi)者對(duì)配送時(shí)間有著較高的要求。商家應(yīng)當(dāng)制定科學(xué)的配送方案,同時(shí)和第三方配送機(jī)構(gòu)展開積極合作,保證食品盡快配送到位。第二個(gè)因素是食品味道。食品的根本在于口味,因此商家應(yīng)當(dāng)注重提高食品質(zhì)量,加大食品、菜品創(chuàng)新力度,著力保證食品口味使消費(fèi)者滿意。第三個(gè)因素是食品衛(wèi)生,食品安全、衛(wèi)生是餐飲O2O行業(yè)的根本,因此餐飲O2O行業(yè)應(yīng)當(dāng)提高食品安全、衛(wèi)生意識(shí),注意在進(jìn)行食品配送時(shí)提供良好的包裝,同時(shí)注意不要造成食品的潑灑,保證食品的整潔、干凈。第四個(gè)因素是服務(wù)態(tài)度,餐飲O2O行業(yè)作為服務(wù)業(yè)要積極培養(yǎng)良好的服務(wù)意識(shí),在與消費(fèi)者進(jìn)行溝通時(shí)要保持良好的態(tài)度,妥善解決消費(fèi)者的各類問題。最后,用戶對(duì)于食品分量也有著較高的要求,商家應(yīng)當(dāng)保證食品分量與宣傳相符,同時(shí)可以通過加量的方式贏得消費(fèi)者好感,要杜絕食品分量過少或者與宣傳不符現(xiàn)象的出現(xiàn)。
4 結(jié)語
本文通過利用word2vec工具對(duì)餐飲O2O用戶差評(píng)語料進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析,發(fā)現(xiàn)用戶給予差評(píng)的主要原因在于商家在配送速度、食品味道、食品衛(wèi)生、服務(wù)態(tài)度以及食品分量等方面給用戶帶來了不好的用餐體驗(yàn)。研究結(jié)論為餐飲O2O行業(yè)從業(yè)者提供了有益啟示,有利于商家進(jìn)一步了解消費(fèi)者對(duì)于目前外賣行業(yè)的不滿意之處,從而更加有針對(duì)性的改進(jìn)自身服務(wù)。
參考文獻(xiàn)
[1]李明.網(wǎng)店圖書差評(píng)信息特征探析[J].圖書情報(bào)工作,2012,(s2):324326.
[2]陸海霞,吳小丁,蘇立勛.差評(píng)真的那么可怕嗎?——負(fù)面線上評(píng)論對(duì)消費(fèi)者購買行為的影響研究[J].北京社會(huì)科學(xué),2014,(5):102109.
[3]曾劍秋,王帆.O2O在線外賣用戶滿意度研究與實(shí)證分析[J].現(xiàn)代情報(bào),2015,35(8):1721.
[4]陳海濤,李同強(qiáng),宋姍姍.在線外賣平臺(tái)用戶重復(fù)購買行為的建模與實(shí)證研究[J].軟科學(xué),2015,29(11):7982.
[5]張艷豐,李賀,彭麗徽.負(fù)面評(píng)論挖掘的網(wǎng)絡(luò)口碑危機(jī)預(yù)警模糊推理[J].圖書情報(bào)工作,2016,60(9):7582.
[6]程明貝,黃剛,張國富.基于AHP法對(duì)外賣網(wǎng)站的綜合評(píng)價(jià)——以“餓了么”網(wǎng)站為例[J].江蘇商論,2015,(12):5758.
[7]周練.Word2vec的工作原理及應(yīng)用探究[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2015,(2):145148.
[8]黃仁,張衛(wèi).基于word2vec的互聯(lián)網(wǎng)商品評(píng)論情感傾向研究[J].計(jì)算機(jī)科學(xué),2016,43(s1):387389.
[9]張冬雯,楊鵬飛,許云峰.基于word2vec和SVMperf的中文評(píng)論情感分類研究[J].計(jì)算機(jī)科學(xué),2016,43(s1).
[10]Fei B.Study of Chinas online catering market under the booming of online group purchasing[J].2010.
[11]Goldberg Y,Levy O. word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method[J].Eprint Arxiv,2014.
[12]Rong X.word2vec Parameter Learning Explained[J].Computer Science,2014.
[13]比達(dá)網(wǎng).2016年第2季度中國第三方餐飲外賣市場(chǎng)研究報(bào)告[OL].http://www.bigdata-research.cn/content/201608/312.html,20160803.