謝明君
【摘要】店鋪評(píng)分是各個(gè)商家及消費(fèi)者都較為關(guān)注的方面,如何提升在線(xiàn)餐飲外賣(mài)店鋪評(píng)分則成為了很多商家關(guān)心的問(wèn)題。本文利用CHAID決策樹(shù)算法對(duì)影響在線(xiàn)餐飲外賣(mài)店鋪評(píng)分的因素進(jìn)行了實(shí)證研究。研究結(jié)果表明,該模型擁有較高的準(zhǔn)確率,可幫助商家明確需要提升的方面,從而提高其店鋪評(píng)分,成為高分店鋪,獲取更多消費(fèi)者的滿(mǎn)意。
【關(guān)鍵詞】決策樹(shù);店鋪評(píng)分;餐飲外賣(mài);影響因素
一、引言
外賣(mài)是一種將線(xiàn)上與線(xiàn)下進(jìn)行結(jié)合的餐飲模式,其依托互聯(lián)網(wǎng),整合各餐飲類(lèi)型的商家信息,包括其位置、商品種類(lèi)、價(jià)格、配送時(shí)間、配送費(fèi)用、滿(mǎn)減信息等情況,為消費(fèi)者提供一個(gè)較為全面的選擇平臺(tái),讓消費(fèi)者足不出戶(hù),即可通過(guò)線(xiàn)上外賣(mài)平臺(tái)下單,享受各類(lèi)美食。同時(shí)外賣(mài)平臺(tái)也為各個(gè)商家提供了獲取更多消費(fèi)者的機(jī)會(huì),使其能夠觸達(dá)更多的用戶(hù),從而提升其銷(xiāo)售量、銷(xiāo)售額及知名度。
近幾年,我國(guó)在線(xiàn)餐飲外賣(mài)市場(chǎng)為了給消費(fèi)者提供更多選擇,滿(mǎn)足消費(fèi)者越來(lái)越多元化、個(gè)性化的需求,不斷完善,整體發(fā)展速度較快。據(jù)易觀(guān)《互聯(lián)網(wǎng)餐飲外賣(mài)行業(yè)數(shù)字化進(jìn)程分析》數(shù)據(jù)顯示,2018年第3季度中國(guó)互聯(lián)網(wǎng)餐飲外賣(mài)市場(chǎng)整體交易規(guī)模達(dá)1275.4億元人民幣,環(huán)比上漲24.0%。與去年同期相比,增幅高達(dá)119.0%??梢?jiàn),消費(fèi)者對(duì)外賣(mài)的需求還是較大的。但這并不意味著消費(fèi)者對(duì)外賣(mài)的要求會(huì)降低,反而由于消費(fèi)者有了更多的選擇,更容易進(jìn)行商品對(duì)比、商家對(duì)比,消費(fèi)者的期望值會(huì)更高,要求也會(huì)更高,那么店鋪評(píng)分(即:消費(fèi)者訂單完成后,可對(duì)該店鋪提供的商品和服務(wù)進(jìn)行評(píng)價(jià)和打分,以此來(lái)體現(xiàn)消費(fèi)者對(duì)此訂單的滿(mǎn)意情況。)將成為消費(fèi)者選擇的一個(gè)重要依據(jù),高分店鋪有哪些特征,也是各外賣(mài)商家較為關(guān)注的一個(gè)事情。
目前現(xiàn)有研究成果來(lái)看,大多是從消費(fèi)者和平臺(tái)的角度對(duì)外賣(mài)市場(chǎng)進(jìn)行研究分析的,很少有從商家的角度進(jìn)行研究。消費(fèi)者方面包括消費(fèi)者忠誠(chéng)度、消費(fèi)者滿(mǎn)意度、消費(fèi)者重復(fù)購(gòu)買(mǎi)意向等,例如,李行天、于亞卓和肖澤中通過(guò)問(wèn)卷調(diào)研,利用因子分析、結(jié)構(gòu)方程模型、回歸分析方法研究了外賣(mài)消費(fèi)者的顧客忠誠(chéng)形成機(jī)制;劉佩琦對(duì)影響020模式下餐飲外賣(mài)顧客滿(mǎn)意度指標(biāo)的研究;耿爽爽對(duì)餐飲外賣(mài)020用戶(hù)重復(fù)購(gòu)買(mǎi)意向影響因素進(jìn)行了研究。平臺(tái)研究方面包括食品安全、信用評(píng)價(jià)體系等,例如,張志祥和石巋然對(duì)020平臺(tái)上外賣(mài)食品安全問(wèn)題進(jìn)行了研究;朱園園和周芳對(duì)網(wǎng)絡(luò)外賣(mài)平臺(tái)信用評(píng)價(jià)體系進(jìn)行了研究。
因此,本文將從商家的角度出發(fā),采用CHAID算法對(duì)高分店鋪進(jìn)行了實(shí)證研究,旨在幫助商家明確哪些因素對(duì)消費(fèi)者打分有重要的影響,以期幫助商家找到提升店鋪評(píng)分的切人點(diǎn)。
二、決策樹(shù)算法
(一)決策樹(shù)算法
決策樹(shù)算法是對(duì)數(shù)據(jù)分類(lèi)及預(yù)測(cè)的一種方式,其最終的展示結(jié)果是以一顆樹(shù)的形式展現(xiàn)。其中這棵樹(shù)的根節(jié)點(diǎn)包含的信息量最多,中間節(jié)點(diǎn)是以該節(jié)點(diǎn)為根的子樹(shù)中含有信息量最多的。決策樹(shù)可分為分類(lèi)樹(shù)和回歸樹(shù)兩種,分類(lèi)樹(shù)用來(lái)實(shí)現(xiàn)對(duì)定類(lèi)或定序目標(biāo)變量的分類(lèi),回歸樹(shù)是對(duì)定距目標(biāo)變量取值的預(yù)測(cè)。經(jīng)常被使用的決策樹(shù)模型有卡方自動(dòng)交互檢測(cè)法(Chi-squared AutomaticInteraction Detector,CHAID)、快速無(wú)偏有效統(tǒng)計(jì)樹(shù)法(QuickUnbiased Efficient Statistic Tree,QUEST)、分類(lèi)和回歸樹(shù)法(Classification and Regression Tree,CART)、ID3算法(IterativeDichotomiser Version 3,ID3)、C4.5算法(Commercial Version 4.5,C4.5)等。其中CHMD算法最早由Kass于1980年提出,用來(lái)發(fā)現(xiàn)變量之間關(guān)系的工具。利用CHAID算法可以高效地挖掘出影響的主要因素,其不僅可以處理非線(xiàn)性和高度相關(guān)的數(shù)據(jù),而且可以將缺失值考慮在內(nèi),能克服傳統(tǒng)的參數(shù)檢驗(yàn)方法在這些方面的不足。并且當(dāng)變量較多且都是分類(lèi)變量時(shí),CHAID算法更適合,因此,本文便采取CHAID算法對(duì)在線(xiàn)餐飲外賣(mài)店鋪的評(píng)分做了研究。
(二)CHAID算法.
1 CHAID算法決策樹(shù)的構(gòu)成
(1)根節(jié)點(diǎn):包含因變量或目標(biāo)變量;(2)父節(jié)點(diǎn):該算法將目標(biāo)變量分為兩個(gè)或多個(gè)分類(lèi),這些分類(lèi)被稱(chēng)為父節(jié)點(diǎn)或者初始節(jié)點(diǎn);(3)子節(jié)點(diǎn):CHAID分析樹(shù)中獨(dú)立變量分類(lèi)低于父節(jié)點(diǎn)的分類(lèi)被稱(chēng)為子節(jié)點(diǎn);(4)終端節(jié)點(diǎn):CHAID分析樹(shù)最后一個(gè)分類(lèi)被稱(chēng)為終端節(jié)點(diǎn)。
2.CHAID算法的過(guò)程
(1)找出可以使目標(biāo)變量實(shí)現(xiàn)分布差異最小化的兩個(gè)分類(lèi),即P值最大。不同的目標(biāo)變量類(lèi)型,P值的計(jì)算方法也是不同的:當(dāng)目標(biāo)變量為連續(xù)型變量時(shí),采取F檢驗(yàn);當(dāng)目標(biāo)變量為分類(lèi)型變量,采取卡方檢驗(yàn)或者似然估計(jì)法檢驗(yàn);當(dāng)目標(biāo)變量是離散型或者定序型變量,采取似然估計(jì)法檢驗(yàn)。
(2)找到P值最大的兩類(lèi),并將P值與事先設(shè)定好的合并水準(zhǔn)進(jìn)行比較,如果P值大于合并水準(zhǔn),則對(duì)這兩類(lèi)進(jìn)行合并,生成一個(gè)新的大類(lèi),重復(fù)上述步驟。若果P值小于合并水準(zhǔn),則采用步驟(3)。
(3)用Bonferroni法對(duì)x和Y的列聯(lián)表計(jì)算。
(4)選擇Bonferroni-Adjusted P值小的x。將其P值與事先設(shè)定好的類(lèi)拆分水準(zhǔn)進(jìn)行比較,如果P值小于類(lèi)拆分水準(zhǔn),則按照一系列x類(lèi)目對(duì)節(jié)點(diǎn)進(jìn)行拆分;如果P值大于類(lèi)拆分水準(zhǔn),則該節(jié)點(diǎn)為葉子節(jié)點(diǎn)。
決策樹(shù)按照上述步驟生長(zhǎng)至結(jié)束。
3.CHAID算法的優(yōu)點(diǎn)
(1)可產(chǎn)生多分枝的決策樹(shù);(2)目標(biāo)變量類(lèi)型可以是定類(lèi)變量或者是定距變量;(3)從統(tǒng)計(jì)顯著性角度確定分支變量和分隔值,進(jìn)而優(yōu)化樹(shù)的分枝過(guò)程;(4)建立在因果關(guān)系探討中,依據(jù)目標(biāo)變量實(shí)現(xiàn)對(duì)輸入變量眾多水平劃分。
三、CHAID算法在在線(xiàn)餐飲外賣(mài)店鋪評(píng)分中的應(yīng)用
本文采用CHAID算法實(shí)現(xiàn)影響因素和店鋪評(píng)分之間的映射,挖掘出兩者之間的關(guān)聯(lián)情況。研究思路如圖1所示:
(一)數(shù)據(jù)準(zhǔn)備
本文是以某外賣(mài)平臺(tái)上的店鋪數(shù)據(jù)為例,從而進(jìn)行實(shí)例分析??倵l數(shù)為2125條,共包含24+指標(biāo)維度。獲取的數(shù)據(jù)主要包含與店鋪相關(guān)的信息數(shù)據(jù)和與商品相關(guān)的信息數(shù)據(jù)。
1.店鋪相關(guān)信息有:店鋪名稱(chēng)、店鋪所在省份、店鋪類(lèi)型、店鋪營(yíng)業(yè)時(shí)間、店鋪評(píng)分、平均送達(dá)時(shí)間、店鋪?zhàn)钚∑鹚蛦蝺r(jià)、店鋪月銷(xiāo)量等信息。
2.商品相關(guān)信息有:商品標(biāo)題、商品好評(píng)率、商品配送費(fèi)用、商品原價(jià)、商品現(xiàn)價(jià)、商品月銷(xiāo)量、商品類(lèi)別等信息。
(二)數(shù)據(jù)預(yù)處理
有些時(shí)候,我們直接獲取的數(shù)據(jù)并不能很好的為我們所用,如數(shù)據(jù)缺失、不一致等因素,因此在獲取數(shù)據(jù)后,需要對(duì)所獲數(shù)據(jù)進(jìn)行一定的預(yù)處理。
1.數(shù)據(jù)清洗
由于數(shù)據(jù)是通過(guò)爬蟲(chóng)獲取的,所以需要清洗掉一些無(wú)用的數(shù)據(jù),以保證數(shù)據(jù)的有效使用。
2.變量分組
本文中對(duì)獲取的數(shù)據(jù)進(jìn)行了一定的分組,以便更好的使用CHAID算法。
如商品現(xiàn)價(jià)劃分為:(0,10]、(10,20]、(20,50]、大于50;商品好評(píng)率劃分為:[0,90]、[91,95]、[96,100];店鋪月銷(xiāo)量劃分為:[0,500]、[501,1000]、[1001,2000]、大于2000;菜品評(píng)價(jià)劃分為:(0,4.3]、[4.4,4.7]、[4.8,5.O]等。
同時(shí)本文中將店鋪綜合評(píng)價(jià)分值在[4.8,5.0]的店鋪定義為高分店鋪,并且在是否為高分店鋪選項(xiàng)中標(biāo)記為是,其他則為否。部分處理后的數(shù)據(jù)見(jiàn)表1。
(三)數(shù)據(jù)集劃分
本文共有樣本總數(shù)2125條,抽取70%樣本作為訓(xùn)練樣本;其余30%作為測(cè)試樣本。
(四)數(shù)據(jù)分析過(guò)程和結(jié)論
1.數(shù)據(jù)描述性統(tǒng)計(jì)
本文中商品數(shù)據(jù)總條數(shù)為2125條,共包含24個(gè)指標(biāo)維度。部分?jǐn)?shù)據(jù)統(tǒng)計(jì)情況如下:
共有267個(gè)商品歸屬于高分店鋪,占比12.6%。商品現(xiàn)價(jià)集中在0-10元,占比49.1%;
其次是10-20元,占比29.4%;20元以上占比21.5%。商品好評(píng)率為9 1%-95%占比50.7%;
96%-100%占比32.1%;90%及以下占比17.2%。商品配送費(fèi)用占比最多的是0-3元,占比
56.3%;其次是4-6元,占比 36.1%;6元以上占比7.6%。商品歸屬為品牌店鋪的有403條,占比19.0%;商品評(píng)價(jià)送達(dá)時(shí)間為30-40分鐘,占比78.4%。
2.數(shù)據(jù)分析過(guò)程
本文使用SPSS統(tǒng)計(jì)軟件進(jìn)行操作,其中將“是否為高分店鋪”選為因變量,將剩下的變量放人自變量框中,即用這些變量描述高分店鋪的特征。通常情況下,需要對(duì)自變量和因變量進(jìn)行相關(guān)性檢驗(yàn),選取對(duì)目標(biāo)變量有顯著影響及相關(guān)程度高的自變量用來(lái)預(yù)測(cè),過(guò)濾掉沒(méi)有顯著影響的因素。但是SPSS軟件在構(gòu)造決策樹(shù)時(shí)會(huì)自動(dòng)對(duì)因素進(jìn)行檢驗(yàn),不會(huì)讓沒(méi)有顯著影響的變量出現(xiàn)在決策樹(shù)中,因此本文將剩下的變量均選人自變量框中。通過(guò)對(duì)輸出、條件、驗(yàn)證、保存等模塊的設(shè)置,SPSS統(tǒng)計(jì)軟件輸出了以下結(jié)果:
(1)模型摘要表格,見(jiàn)表2
可以看出,最終的模型只納入菜品評(píng)價(jià)得分、高于周邊商家得分、商品好評(píng)率三個(gè)自變量。
(3)節(jié)點(diǎn)增益表,見(jiàn)表3。可以看出在節(jié)點(diǎn)3處,高分店鋪的占比有顯著提升。
3.模型效果評(píng)估與結(jié)論
通過(guò)SPSS輸出的風(fēng)險(xiǎn)表格和分類(lèi)表格,可以得知訓(xùn)練集的風(fēng)險(xiǎn)估算值為0.064,總計(jì)正確百分比為93.6%;檢驗(yàn)集的風(fēng)險(xiǎn)估算值為0.065,總計(jì)正確百分比為93.5%。可見(jiàn)模型的效果良好,可以有效進(jìn)行預(yù)判。根據(jù)模型輸出的決策樹(shù),可以總結(jié)出高分店鋪的特征:
(1)菜品評(píng)價(jià)得分介于4.8-5.0之間,更易被評(píng)為高分店鋪。因?yàn)橛?xùn)練樣本中高分店鋪一共有191個(gè),占比12.5%;但是在菜品評(píng)價(jià)得分介于4.8-5.0之間時(shí),高分店鋪一共有122個(gè),占這部分樣本的81.3%,因此可以看出菜品評(píng)價(jià)得分的重要性,商家可以在這部分多下功夫,獲得高分店鋪的可能性越大。
(2)菜品評(píng)價(jià)得分介于4.4-4.7之間,且高于周邊商家評(píng)分位于4.8-5.0之間,也是可以獲得高分店鋪的。研究表明,這種情況下,商家獲得高分店鋪的可能性為37.7%。因此如果商家對(duì)菜品評(píng)價(jià)得分不知如何提高,并且其位于中檔,即4.4-4.7之間時(shí),可以從提高高于周邊商家評(píng)分人手,使其分值位于4.8-5.0之間,為商家提供了另一種獲得高分店鋪的可能;
(3)菜品評(píng)價(jià)得分介于4.4-4.7之間,高于周邊商家評(píng)分小于等于4.7,但商品好評(píng)率位于96%-100%之間,亦是可以獲得高分店鋪的,此種可能性達(dá)到8.5%。雖然商家在菜品評(píng)價(jià)得分和高于周邊商家評(píng)分上面均未能處于高分檔,但還可以從提高商品好評(píng)率著手,使其位于96%-100%之間,從而變?yōu)楦叻值赇仭?/p>
四、結(jié)束語(yǔ)
本文提供了一種基于CHAID決策樹(shù)算法對(duì)在線(xiàn)餐飲外賣(mài)店鋪評(píng)分影響因素的研究。通過(guò)高分店鋪與非高分店鋪的對(duì)比,發(fā)現(xiàn)高分店鋪存在的一些特征,篩選出與高分店鋪相關(guān)的顯著性指標(biāo),這些工作對(duì)于進(jìn)一步深入的店鋪評(píng)分分析,可以起到參考意義。