申 一,周 鵬
(河北經(jīng)貿(mào)大學(xué),石家莊050001)
基于CART 決策樹的大學(xué)生游戲消費(fèi)行為研究
——以某高校大學(xué)生為例
申 一,周 鵬
(河北經(jīng)貿(mào)大學(xué),石家莊050001)
針對(duì)大學(xué)生游戲消費(fèi)行為,提出了基于CART決策樹的預(yù)測(cè)方法,此方法具有較高的的準(zhǔn)確率和良好的自學(xué)能力。利用CART決策樹可以對(duì)影響游戲消費(fèi)行為的復(fù)雜因素進(jìn)行回歸分類及規(guī)則提取,進(jìn)而從眾多的數(shù)據(jù)中得出一致性規(guī)律,經(jīng)過(guò)CART決策樹模型的構(gòu)建,結(jié)果表明,CART決策樹方法良好地預(yù)測(cè)了影響大學(xué)生消費(fèi)行為的因素。
決策樹;CART算法;大學(xué)生;游戲消費(fèi)行為
隨著網(wǎng)絡(luò)的飛速發(fā)展,PC終端、移動(dòng)設(shè)備(手機(jī))、各種游戲主機(jī)的不斷換代更新,游戲在數(shù)量、類型題材、質(zhì)量、市場(chǎng)規(guī)模等方面都實(shí)現(xiàn)了持續(xù)穩(wěn)定的增長(zhǎng),游戲用戶在游戲上花費(fèi)的時(shí)間、金錢愈來(lái)愈多。而游戲用戶的組成中,大學(xué)生這一群體占有重要的地位。由于大學(xué)生普遍時(shí)間充裕,個(gè)人可支配財(cái)產(chǎn)較為穩(wěn)定,接受新鮮事物的愿望與能力較強(qiáng),所以要研究中國(guó)現(xiàn)階段的游戲產(chǎn)業(yè),研究大學(xué)生的游戲消費(fèi)行為必不可少,在此,以某大學(xué)的大學(xué)生為例進(jìn)行分析。使用的決策樹方法相對(duì)其他數(shù)據(jù)挖掘算法,擁有的優(yōu)勢(shì):一是決策樹易于理解和實(shí)現(xiàn);二是對(duì)于決策樹,數(shù)據(jù)的準(zhǔn)備往往是簡(jiǎn)單或者不必要的;三是能夠同時(shí)處理數(shù)據(jù)型和常規(guī)型屬性;四是易于通過(guò)靜態(tài)測(cè)試來(lái)對(duì)模型進(jìn)行預(yù)測(cè);五是在相對(duì)短的時(shí)間內(nèi)能夠?qū)?shù)據(jù)做出可行且效果良好的結(jié)果。因此運(yùn)用CART決策時(shí)算法進(jìn)行分析。
分類回歸樹包含了分類樹和回歸樹,是通過(guò)向現(xiàn)有數(shù)據(jù)學(xué)習(xí),用于實(shí)現(xiàn)對(duì)數(shù)據(jù)內(nèi)在的規(guī)律進(jìn)行探究,并用于對(duì)未來(lái)新數(shù)據(jù)進(jìn)行分類預(yù)測(cè)的方法。本文采取的是 CART(Classification And Regression Tree)算法。這種算法與C5.0算法的思路是相似的,都包括了決策樹生長(zhǎng)和決策樹剪枝過(guò)程。CART算法的輸入變量和輸出變量可以是分類型也可以是數(shù)值型,CART算法只能建立二叉樹,這兩點(diǎn)是CART算法和C5.0算法最明顯的區(qū)別。
本文所采用的輸入變量均為多分類型輸入變量,由于CART只能夠建立二叉樹,所以對(duì)于本文選用的多分類型變量,首先需要將多類別進(jìn)行合并產(chǎn)生兩個(gè)類別,通常稱為“超類”,然后需要計(jì)算兩個(gè)“超類”下樣本輸出變量取值的異質(zhì)性。
理想情況下,“超類”應(yīng)該能夠起到讓兩組輸出變量取值異質(zhì)性的和達(dá)到最小的作用。也就是使得“純度”達(dá)到最大。
Gini系數(shù)是CART算法用來(lái)測(cè)度異質(zhì)性的。數(shù)學(xué)定義為:
其中,t為節(jié)點(diǎn),k為輸出變量的類別數(shù),p為節(jié)點(diǎn)t中樣本輸出變量取j的“歸一化”概率。由此可見(jiàn),當(dāng)節(jié)點(diǎn)樣本的輸出變量均取同一類別值時(shí),輸出變量取值的差異性達(dá)到最小值,Gini系數(shù)取最小值為0,當(dāng)個(gè)類別取概率值相等時(shí),輸出變量取值的差異性最大,Gini系數(shù)值達(dá)到最大,為1-1/k。
所以,Gini系數(shù)的減少量可以用來(lái)衡量異質(zhì)性的下降,數(shù)學(xué)定義為:
其中G(t)和N分別為分組之前的輸出變量的Gini系數(shù)和樣本量,r和l下標(biāo)分別表示分組后的右子樹和左子樹。
利用上述兩式可以得到使得兩“超類”下輸出變量取值異質(zhì)性下降最快(即“純度”上升最快)的分割點(diǎn)。除此方法之外,CART算法還可以采用Twoing策略和Ordered策略得到最佳分組變量。
在通過(guò)決策樹方法對(duì)某大學(xué)學(xué)生游戲消費(fèi)行為進(jìn)行分析。數(shù)據(jù)采集方法為網(wǎng)絡(luò)問(wèn)卷調(diào)查。選取性別、年級(jí)、每月生活費(fèi)用、接觸游戲時(shí)間、每天玩游戲的時(shí)長(zhǎng)、游戲類型、消費(fèi)數(shù)額、消費(fèi)動(dòng)機(jī)、消費(fèi)所處的游戲進(jìn)程作為輸入變量,消費(fèi)行為作為輸出變量。其中消費(fèi)行為是包含理性行為、沖動(dòng)行為和中性行為的三分類型變量。利用clementine軟件進(jìn)行分析。
上述圖1為本次數(shù)據(jù)分析過(guò)程的數(shù)據(jù)流,首先對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理。預(yù)處理第一步是對(duì)利用Type節(jié)點(diǎn)輸入變量類型進(jìn)行處理。如下表。
第二步是對(duì)輸出變量的處理。原問(wèn)卷中,將消費(fèi)行為作為五級(jí)量表進(jìn)行調(diào)查,現(xiàn)為了方便分析,將原問(wèn)卷中的選項(xiàng)進(jìn)行合并,利用Reclassify節(jié)點(diǎn)將原有取值進(jìn)行重新賦值,最后將消費(fèi)行為設(shè)置為沖動(dòng)、中性和理性三種不同行為。
圖1 數(shù)據(jù)流
二分類型變量(F l a g)年級(jí) 多分類型變量(s d t)每月生活費(fèi)用 有次序的多分類型變量(O r d e r e d S e t)接觸游戲的時(shí)間 有次序的多分類型變量(O r d e r e d S e t)每天游戲時(shí)長(zhǎng) 有次序的多分類型變量(O r d e r e d S e t)游戲類型 多分類型變量(s d t)消費(fèi)數(shù)額 有次序的多分類型變量(O r d e r e d S e t)消費(fèi)動(dòng)機(jī) 多分類型變量(s d t)消費(fèi)時(shí)的游戲進(jìn)程 有次序的多分類型變量(O r d e r e d S e t)性別
由于本文采用的數(shù)據(jù)不存在缺失數(shù)據(jù)和離群值,所以不涉及數(shù)據(jù)插補(bǔ)工作。接下來(lái)在圖1所示節(jié)點(diǎn)位置添加CART節(jié)點(diǎn)。分析結(jié)果以及決策樹如下圖所示。
由上述分析過(guò)程可以得出。想要分析游戲玩家消費(fèi)者行為,首先應(yīng)該關(guān)注的是該消費(fèi)者在玩游戲過(guò)程中的累計(jì)消費(fèi)金額,這是因?yàn)橥婕蚁M(fèi)過(guò)多可能導(dǎo)致沖動(dòng)消費(fèi)過(guò)多。
在消費(fèi)金額100元以下以內(nèi)的消費(fèi)者中:首先應(yīng)該關(guān)注的是玩家在游戲什么進(jìn)程時(shí)進(jìn)行消費(fèi),這是由于老玩家和新手玩家對(duì)于游戲的理解不同,可能導(dǎo)致的消費(fèi)行為也不同。在游戲前中期進(jìn)行消費(fèi)的消費(fèi)者中,所玩游戲類型不同導(dǎo)致的消費(fèi)行為也會(huì)有一定的差異,對(duì)于手機(jī)游戲玩家和網(wǎng)絡(luò)游戲玩家來(lái)說(shuō),由于外界因素影響以及為了增加游戲觀感體驗(yàn)和增加游戲人物實(shí)力導(dǎo)致的消費(fèi),大都是沖動(dòng)消費(fèi)而為了節(jié)省時(shí)間成本的消費(fèi)大都是理性的消費(fèi)。而單機(jī)游戲和主機(jī)游戲玩家,不管由于什么動(dòng)機(jī)進(jìn)行消費(fèi),他們的消費(fèi)行為大都是理性的;在游戲后期消費(fèi)的玩家中則分為兩類:第一類玩家的消費(fèi)動(dòng)機(jī)大都受周圍人群影響,理性與否受所玩游戲類型所影響,手機(jī)和網(wǎng)絡(luò)游戲玩家消費(fèi)行為大都是理性的,單機(jī)和主機(jī)游戲玩家更傾向于沖動(dòng)消費(fèi);第二類玩家游戲消費(fèi)的最大動(dòng)機(jī)是增加游戲觀感體驗(yàn)、增加游戲人物實(shí)力、節(jié)省時(shí)間成,他們的游戲消費(fèi)行為大都是理性的。
圖5 決策樹
[1]汪 輝,侯傳宇.決策樹相關(guān)算法研究[J].電腦知識(shí)與技術(shù),2011,7(15):3572-3574,3581.
[2]駱盈盈,王柯玲,陳川等.結(jié)合遞增式學(xué)習(xí)的CART算法改進(jìn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28(7):1520-1522.
[責(zé)任編輯:王 鑫]
F0631.2
A
1005-913X(2017)07-0052-02
2017-05-26
申 一(1994-),男,山西長(zhǎng)治人,碩士研究生,研究方向:調(diào)查與大數(shù)據(jù)分析;周 鵬(1992-),男,河北張家口人,碩士研究生,研究方向:金融統(tǒng)計(jì)與風(fēng)險(xiǎn)管理。