郭少友+簡丹
[摘 要] 本文通過采集網(wǎng)站上1 500家餐飲商戶的評分?jǐn)?shù)據(jù),利用SPSS軟件對其進(jìn)行相關(guān)分析和回歸分析,挖掘餐飲商戶評分?jǐn)?shù)據(jù)之間的關(guān)聯(lián)關(guān)系。通過相關(guān)分析找出用戶評分時(shí)的打分習(xí)慣,發(fā)現(xiàn)用戶對于各項(xiàng)評分打分時(shí)存在關(guān)聯(lián)關(guān)系,通過回歸分析判斷商戶的總評分與各項(xiàng)評分之間的關(guān)聯(lián),發(fā)現(xiàn)他們之間存在線性關(guān)系。
[關(guān)鍵詞] 商戶評分?jǐn)?shù)據(jù);相關(guān)分析;回歸分析;SPSS
[中圖分類號] F713 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1671-0037(2017)2-44-3
Research of Internet Business Rating Based on Correlation Analysis
——A Case of the Rating Data for Catering Businesses
Guo Shaoyou Jian Dan
(School of Information Management,Zhengzhou University,Zhengzhou Henan 450001)
Abstract: In this paper, we collected the rating data of 1500 catering businesses on the website, and conducted correlation analysis and regression analysis using SPSS software to find the relation between the rating data of the catering businesses. We found out users' grating habit via correlation analysis and found that there was a correlation between different individual scores of the users. And we judged the correlation between the overall score and individual scores via regression analysis and found that they had linear relationship.
Key words: rating data for businesses; correlation analysis; regression analysis; SPSS
1 引言
現(xiàn)代的消費(fèi)模式往往會伴隨著口碑評價(jià)信息,人們在選擇商戶的時(shí)候經(jīng)常會參考網(wǎng)站上的商家評分信息,為了研究這些網(wǎng)站上的評分?jǐn)?shù)據(jù),筆者采集了1 500家餐飲商戶的評分?jǐn)?shù)據(jù),對其進(jìn)行關(guān)聯(lián)分析,使用相關(guān)分析和回歸分析的方法,找出用戶打分習(xí)慣之間的關(guān)聯(lián),計(jì)算出商戶總評分與各項(xiàng)評分之間的關(guān)聯(lián)。
在學(xué)術(shù)領(lǐng)域,對于商戶評分?jǐn)?shù)據(jù)的分析方面研究較少,只有此篇文章供參考。曾晨、張瑾[1]利用數(shù)據(jù)堂網(wǎng)站上的商戶評分?jǐn)?shù)據(jù)集,使用R語言編寫程序,對商戶評分?jǐn)?shù)據(jù)進(jìn)行聚類分析、關(guān)聯(lián)分析、決策樹分析,探索不同類別商戶的評分高低,利用聚類分析將商戶分級,利用決策樹分析幫助消費(fèi)者選擇商家。
筆者受此研究的啟發(fā),選擇研究商戶評分?jǐn)?shù)據(jù)之間的關(guān)聯(lián)關(guān)系。在數(shù)據(jù)上,根據(jù)分析需求直接從網(wǎng)站上采集最新的數(shù)據(jù)集合,保證數(shù)據(jù)集的針對性和時(shí)效性;在分析方法上,采用統(tǒng)計(jì)學(xué)上的回歸分析與相關(guān)分析方法,分析商戶評分之間的關(guān)聯(lián)關(guān)系;在分析工具上,選擇已有的統(tǒng)計(jì)學(xué)軟件SPSS對于數(shù)據(jù)進(jìn)行計(jì)算處理[2]。
2 餐飲商戶評分?jǐn)?shù)據(jù)的關(guān)聯(lián)分析
本文的商戶評分關(guān)聯(lián)分析主要分為兩個(gè)部分,首先使用相關(guān)分析找出不同商戶評分間的關(guān)聯(lián),之后使用回歸分析找出商戶總評分與各項(xiàng)評分之間的關(guān)聯(lián),挖掘商戶評分間的關(guān)聯(lián)關(guān)系。
2.1 餐飲商戶評分?jǐn)?shù)據(jù)的來源
筆者所用的數(shù)據(jù)是使用八爪魚采集器[3],于2016年8月將大眾點(diǎn)評網(wǎng)鄭州地區(qū)人氣最高的1 500家商戶的評分?jǐn)?shù)據(jù)采集下來,匯總成excel形式,采集的字段信息包括商家的名稱、地址、總評分、口味評分、環(huán)境評分和服務(wù)評分六個(gè)字段信息。
2.2 餐飲商戶評分?jǐn)?shù)據(jù)的相關(guān)分析
相關(guān)分析指的是分析兩個(gè)變量之間相關(guān)關(guān)系的一種分析方法,常使用兩個(gè)變量間的相關(guān)系數(shù)來衡量,相關(guān)系數(shù)越接近于1,變量之間的相關(guān)關(guān)系越密切[4]。在本文研究中,筆者通過計(jì)算商戶評分之間相關(guān)關(guān)系,找出不同評分之間的關(guān)聯(lián)關(guān)系。
在該電商網(wǎng)站上用戶對商家進(jìn)行打分的時(shí)候,需要從口味、環(huán)境和服務(wù)這三方面對商戶進(jìn)行打分,為了驗(yàn)證這三個(gè)評分是否存在某種關(guān)聯(lián),我們通過兩兩計(jì)算商戶不同評分間的相關(guān)系數(shù),來判斷二者間的關(guān)系[5-6],評分A與評分B之間的關(guān)系系數(shù)計(jì)算公式如公式1所示。
R= (1)
R表示評分A與評分B間的相關(guān)系數(shù),和分別為評分A和評分B的樣本值,和分別表示評分A和評分B樣本值的均值,在實(shí)際操作中,該相關(guān)系數(shù)可通過將樣本值錄入到軟件中,由軟件直接計(jì)算得出。
筆者選擇使用SPSS分析軟件,將這1 500家商戶的評分輸入到SPSS中進(jìn)行相關(guān)分析,結(jié)果如表1所示。
用Pearson相關(guān)系數(shù)來判斷變量間的關(guān)系時(shí),相關(guān)系數(shù)越大,二者的相關(guān)關(guān)系越大。從表格當(dāng)中,我們可以看到關(guān)系系數(shù)的P值都約等于0,所以該統(tǒng)計(jì)分析顯著。
環(huán)境與服務(wù)評分的相關(guān)系數(shù)是0.887,二者相關(guān)度極強(qiáng);口味與服務(wù)評分的相關(guān)系數(shù)為0.822,二者相關(guān)度較高;口味和環(huán)境評分的相關(guān)系數(shù)為0.713,二者比較相關(guān)??梢钥闯觯P(guān)系最密切的是環(huán)境與服務(wù)評分間的關(guān)系,因?yàn)橥ǔR患已b修環(huán)境較好的餐廳,代表其定位比較高,會在各方面為顧客考慮,所以通常服務(wù)質(zhì)量也會比較高,因而環(huán)境與服務(wù)評分之間的關(guān)系比較緊密。
2.3 餐飲商戶評分?jǐn)?shù)據(jù)的回歸分析
回歸分析是將有關(guān)變量還原到數(shù)學(xué)模型當(dāng)中,從而來評估事物間關(guān)系的一種分析方法。通過樣本值來估計(jì)回歸模型中的各項(xiàng)參數(shù),再將參數(shù)值帶入回歸模型生成回歸方程,利用回歸方程表達(dá)事物之間的關(guān)聯(lián)關(guān)系。
商戶的總評分代表商戶的綜合水平,與各項(xiàng)評分間應(yīng)該具有某種關(guān)系,為確定商戶的總評分與各項(xiàng)評分之間的關(guān)聯(lián),驗(yàn)證商戶總評分的依據(jù),我們假設(shè)商戶的總評分與各項(xiàng)評分存在線性關(guān)系,使用回歸分析對其進(jìn)行分析。令商戶的總評分為y,表示因變量;令口味評分為,服務(wù)評分為,環(huán)境評分為,表示三個(gè)自變量,令設(shè)自變量的參數(shù)為、、,常數(shù)為c,則該回歸分析的回歸模型如公式2所示。
由于回歸分析是根據(jù)變量的樣本值計(jì)算變量的參數(shù),從而來判斷不同變量之間的關(guān)系,參數(shù)的估計(jì)方法使用最小二乘法,依次將變量的樣本值帶入回歸模型,聯(lián)立方程求出參數(shù),實(shí)際過程中,可以利用軟件實(shí)現(xiàn)參數(shù)的計(jì)算[7]。
將采集的1 500家餐飲商戶的總評分與餐飲商戶的口味、環(huán)境、服務(wù)三方面的評分輸入到SPSS軟件中,進(jìn)行回歸分析,為了避免三個(gè)評分之間互相影響,我們選擇逐步回歸對數(shù)據(jù)進(jìn)行處理,依次將重要的變量引入方程當(dāng)中,避免共線性的問題,回歸結(jié)果如表2所示。
通過表2我們可以看到,把對回歸模型影響最大的變量依次回歸入方程中,R方的值越來越趨近于1且誤差值越來越小,當(dāng)三個(gè)變量都引入回歸模型時(shí),此回歸模型的R方值為0.825且誤差為0.677 2,D-W值為1.855,表明該回歸方程較為準(zhǔn)確,商戶的總評分與口味、服務(wù)和環(huán)境評分確實(shí)呈線性關(guān)系,假設(shè)成立,商戶的總評分與各項(xiàng)評分呈線性關(guān)系。
該回歸分析的回歸系數(shù)如表3所示,將方程的各項(xiàng)系數(shù)帶入到回歸模型中,此時(shí),該回歸方程如公式3所示。
可以看出,商戶的總評分與用戶打的三個(gè)評分之間呈線性關(guān)系。自變量前的參數(shù)越大,表明該變量與因變量商戶總評分間關(guān)系越密切,所以最能影響商戶總評分的因素依次為口味評分、服務(wù)評分、環(huán)境評分,該網(wǎng)站商戶的總評分依靠商戶的各項(xiàng)評分計(jì)算出來,所以值得信任。
3 結(jié)語
本文通過統(tǒng)計(jì)學(xué)中的相關(guān)分析與回歸分析方法,找出商戶評分?jǐn)?shù)據(jù)之間的關(guān)聯(lián)關(guān)系,分析發(fā)現(xiàn),商戶的口味評分與環(huán)境評分關(guān)系極為密切,商戶的總評分與各項(xiàng)評分間呈線性關(guān)系,驗(yàn)證了商戶總評分的可信度。遺憾的是本文依然存在一些不足之處,體現(xiàn)在:一是樣本量不足,在原始數(shù)據(jù)上,樣本量為1 500條,屬于對餐飲商戶的一個(gè)抽樣調(diào)查,如果能得到所有的餐飲商戶評分,會使得分析的結(jié)果更為準(zhǔn)確;二是依賴軟件計(jì)算。在計(jì)算方法上主要是用SPSS軟件實(shí)現(xiàn)計(jì)算,并沒有考慮到軟件計(jì)算的誤差問題。
參考文獻(xiàn):
[1] 曾晨,張瑾,張瑞.基于數(shù)據(jù)挖掘方法下的大眾點(diǎn)評網(wǎng)美食類商家評分研究[A].中國統(tǒng)計(jì)教育學(xué)會.2015年(第四屆)全國大學(xué)生統(tǒng)計(jì)建模大賽論文[C].中國統(tǒng)計(jì)教育學(xué)會,2015.
[2] 黃中文.SPSS統(tǒng)計(jì)分析與應(yīng)用[M].北京:電子工業(yè)出版社,2016.
[3] 尤建新,孟銀薇.基于Web數(shù)據(jù)挖掘的網(wǎng)站知識獲取及應(yīng)用——以大眾點(diǎn)評網(wǎng)為例[J].上海大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(3):261-273.
[4] 鄭淞月,劉益,楊偉,等.基于美團(tuán)網(wǎng)的產(chǎn)品因素對網(wǎng)絡(luò)團(tuán)購影響因素實(shí)證研究[J].管理學(xué)報(bào),2013(3):397-403.
[5] 丁學(xué)君.網(wǎng)絡(luò)環(huán)境下口碑信息可信度影響因素的實(shí)證研究[J].中國經(jīng)貿(mào)導(dǎo)刊,2012(29):75-77.
[6] Yan X,Wang J Chau.Customer revisit intention to restaurants:Evidence from online reviews[J].Information Systems Frontiers, 2015(3):645-657.
[7] 黃冰毅.餐飲類網(wǎng)絡(luò)團(tuán)購策略研究——基于大眾點(diǎn)評網(wǎng)的數(shù)據(jù)分析[J].電子商務(wù),2016(3):48-49.